合成图像在人工智能训练效率方面树立了新的标杆_专栏

易百纳社区

数据是新的土壤，在这片肥沃的新土地上，麻省理工学院的研究人员种植的不仅仅是像素。通过使用合成图像来训练机器学习模型，一组科学家最近超越了传统的“真实图像”训练方法所获得的结果。

该方法的核心是一个名为StableRep的系统，它不仅使用任何合成图像;它通过非常流行的文本到图像模型(如Stable Diffusion)生成它们。这就像用文字创造世界。

那么StableRep的秘诀是什么呢?一种叫做“多元积极对比学习”的策略。

麻省理工学院电子工程博士生、麻省理工学院计算机科学与人工智能实验室(CSAIL)的附属机构、目前发表在arXiv预印本服务器上的这项工作的首席研究员Lijie Fan说:“我们正在教模型通过上下文和方差来学习更多的高级概念，而不仅仅是给它提供数据。”

“当多幅图像都是由同一文本生成的，都被视为对同一潜在事物的描述时，模型会更深入地研究图像背后的概念，比如物体，而不仅仅是它们的像素。”

该方法将从相同文本提示中生成的多个图像视为正对，在训练过程中提供额外的信息，不仅增加了更多的多样性，而且还指定视觉系统哪些图像相似，哪些图像不同。值得注意的是，StableRep在广泛的数据集中，在真实图像(如SimCLR和CLIP)上训练的顶级模型的实力相形见绌。

“虽然StableRep有助于减轻机器学习中数据采集的挑战，但它也为人工智能训练技术的新时代迈出了一大步。根据命令生成高质量、多样化合成图像的能力可以帮助减少繁琐的费用和资源。”

数据收集的过程从来都不是直截了当的。在20世纪90年代，研究人员不得不手动捕捉照片来组装物体和人脸的数据集。21世纪初，人们开始在互联网上搜索数据。然而，这些原始的、未经整理的数据与现实世界的场景相比往往存在差异，反映了社会偏见，呈现出一种扭曲的现实感。

通过人工干预清理数据集的任务不仅成本高昂，而且极具挑战性。但是，想象一下，如果这项艰巨的数据收集可以被提炼成像用自然语言发出命令一样简单的事情。

StableRep成功的一个关键方面是生成模型中“引导尺度”的调整，这确保了合成图像的多样性和保真度之间的微妙平衡。经过精细调整，用于训练这些自我监督模型的合成图像被发现与真实图像一样有效，如果不是更有效的话。

更进一步，语言监督被添加到其中，创建了一个增强的变体:StableRep+。当使用2000万张合成图像进行训练时，与使用惊人的5000万张真实图像进行训练的CLIP模型相比，StableRep+不仅达到了卓越的精度，而且显示出了显着的效率。

然而，前方的道路并非没有坎坷。研究人员坦率地指出了一些局限性，包括当前图像生成速度缓慢，文本提示与生成图像之间的语义不匹配，潜在的偏见放大以及图像归因的复杂性，所有这些都是解决未来进步的必要条件。

另一个问题是StableRep需要首先在大规模的真实数据上训练生成模型。该团队承认，从真实数据开始仍然是必要的;然而，当你有一个好的生成模型时，你可以将它重新用于新的任务，比如训练识别模型和视觉表示。

该团队指出，他们还没有从实际数据开始；只是一旦你有了一个好的生成模型，你就可以把它重新用于新的任务，比如训练识别模型和视觉表征。

虽然StableRep通过减少对大量真实图像集合的依赖提供了一个很好的解决方案，但它带来了对这些文本到图像模型中使用的未整理数据中隐藏偏差的担忧。作为图像合成过程中不可或缺的一部分，文本提示的选择并不是完全没有偏见，“这表明了细致的文本选择或可能的人工管理的重要作用，”Lijie Fan说。

“使用最新的文本到图像模型，我们在图像生成方面获得了前所未有的控制，允许从单个文本输入产生多种视觉效果。这在效率和多功能性上超过了现实世界的图像收集。事实证明，它在特殊任务中特别有用，比如在长尾识别中平衡图像的多样性，是对使用真实图像进行训练的一种实用补充。”

“我们的工作标志着视觉学习向前迈进了一步，朝着提供具有成本效益的培训替代方案的目标迈进，同时强调了不断改进数据质量和综合的必要性。”

谷歌DeepMind研究员、多伦多大学计算机科学教授David Fleet说:“长期以来，生成模型学习的一个梦想是能够生成对判别模型训练有用的数据。”

“虽然我们已经看到了一些生命的迹象，但这个梦想一直难以实现，尤其是在高分辨率图像等大规模复杂领域。这篇论文提供了令人信服的证据，据我所知，这是第一次，这个梦想正在成为现实。他们表明，从大量合成图像数据中进行对比学习可以产生优于大规模从真实数据中学习的表示，并有可能改善无数下游视觉任务。”

合成图像在人工智能训练效率方面树立了新的标杆