麻省理工AI实验室推出图像大模型PFGM++,性能超过扩散模型

麻省理工学院 CSAIL 的研究人员将创新的 AI 模型变为现实,想象力的领域不再仅仅是抽象的。 他们的新技术整合了两个看似无关的物理定律,支撑着迄今为止表现最好的生成模型:扩散(diffusion),通常说明元素的随机运动,例如热量渗透到房间或气体膨胀到空间,以及泊松流,它利用了控制电荷活动的原理。

美国麻省理工学院的计算机科学和人工智能实验室(CSAIL)最近推出了 PFGM++,这是一种结合了扩散(diffusion)和泊松流(Poisson Flow)原理的人工智能模型。 它通过复制电场行为提供卓越的图像生成,代表了生成式 AI 的飞跃。

受物理学的启发,新的生成模型 PFGM++ 在图像生成方面优于扩散模型。

生成式 AI 目前正处于流行讨论的顶峰,它承诺了一个将简单转化为复杂的世界——简单的分布演变成图像、声音或文本的复杂模式,使人工变得惊人的真实。

麻省理工学院 CSAIL 的研究人员将创新的 AI 模型变为现实,想象力的领域不再仅仅是抽象的。 他们的新技术整合了两个看似无关的物理定律,支撑着迄今为止表现最好的生成模型:扩散(diffusion),通常说明元素的随机运动,例如热量渗透到房间或气体膨胀到空间,以及泊松流,它利用了控制电荷活动的原理。

新模型正在源源不断地涌现

扩散和松波流的融合在生成新图像方面带来了卓越的性能,超越了现有的最先进模型。 “泊松流生成模型++”(PFGM++)已经在各个领域找到了潜在的应用,从抗体和RNA序列生成到音频生成和图形生成。

该模型可以生成复杂的模式,例如创建逼真的图像或模仿现实世界的过程。 PFGM++ 建立在 PFGM 的基础上,PFGM 是该团队去年的工作。 PFGM 从称为“泊松”方程的数学方程背后的方法中汲取灵感,然后将其应用于模型尝试学习的数据。 为了做到这一点,团队使用了一个聪明的技巧:他们在模型的“空间”中添加了一个额外的维度,有点像从 2D 草图到 3D 模型。 这一额外的维度提供了更多的操作空间,将数据置于更大的上下文中,并有助于在生成新样本时从各个方向处理数据。

“PFGM++ 是人工智能进步的一个例子,可以通过物理学家和计算机科学家之间的跨学科合作来推动,”麻省理工学院核科学实验室理论物理中心的理论粒子物理学家、国家科学基金会人工智能主任 Jesse Thaler 说 人工智能和基础交互研究所(NSF AI IAIFI),没有参与这项工作。

“近年来,基于人工智能的生成模型已经产生了许多令人瞠目结舌的结果,从逼真的图像到清晰的文本流。 值得注意的是,一些最强大的生成模型基于经过时间考验的物理学概念,例如对称性和热力学。 PFGM++ 从基础物理学中汲取了一个世纪以来的想法——可能存在额外的时空维度——并将其变成一个强大而稳健的工具来生成合成但真实的数据集。 ‘物理智能’正在以多种方式改变人工智能领域,这令人感到兴奋。”

PFGM++的底层机制

PFGM++ 的基本机制并不像听起来那么复杂。 研究人员将这些数据点与放置在维度扩展世界中的平面上的微小电荷进行了比较。 这些电荷产生一个“电场”,电荷沿着场力线向上移动到一个额外的维度,从而在一个巨大的假想半球上形成均匀的分布。 生成过程就像倒带录像带:从半球上均匀分布的一组电荷开始,沿着电线跟踪它们回到平面的旅程,它们对齐以匹配原始数据分布。 这个有趣的过程使神经模型能够学习电场,并生成反映原始数据的新数据。

PFGM++ 模型将 PFGM 中的电场扩展到复杂的高维框架。 当你不断扩展这些维度时,一些意想不到的事情会发生——模型开始类似于另一类重要的模型,即扩散模型。 这项工作就是要找到适当的平衡。 PFGM 和扩散模型处于两个极端:一个很强大,但处理起来很复杂,另一个更简单,但不太坚固。 PFGM++ 模型提供了一个最佳点,在稳健性和易用性之间取得了平衡。 这项创新为更高效的图像和图案生成铺平了道路,标志着技术的重大进步。 除了可调节参数外,研究人员还提出了一种新的训练方法,可以更有效地学习电场。

检验理论

为了将这一理论变为现实,MIT 研究小组求解了一对微分方程,详细描述了这些电荷在电场内的运动。 他们使用 Frechet Inception Distance (FID) 分数来评估性能,这是一种广泛接受的指标,用于评估模型生成的图像与真实图像相比的质量。 PFGM++ 进一步展示了对微分方程中步长的更高的抗误差性和鲁棒性。

展望未来,他们的目标是完善模型的某些方面,特别是通过分析神经网络估计误差的行为,以系统的方式确定针对特定数据、架构和任务定制的 D 的“最佳点”值。 他们还计划将 PFGM++ 应用到现代大规模文本到图像/文本到视频生成中。

行业反馈

OpenAI 研究科学家 Yang Song 表示:

“扩散模型已成为生成式 AI 革命背后的关键驱动力。PFGM++ 提供了扩散模型的强大泛化版本,允许用户通过提高图像生成针对扰动和学习错误的鲁棒性来生成更高质量的图像。 此外,PFGM++ 揭示了静电学和扩散模型之间令人惊讶的联系,为扩散模型研究提供了新的理论见解。”

未参与其中的 NVIDIA 高级研究科学家 Karsten Kreis 表示:

“泊松流生成模型不仅依赖于基于静电学的优雅物理学公式,而且还在实践中提供最先进的生成建模性能。
它们甚至优于目前在文献中占主导地位的流行扩散模型。 这使它们成为一个非常强大的生成建模工具,我设想它们在不同领域的应用,从数字内容创建到生成药物发现。 更广泛地说,我相信进一步探索受物理启发的生成模型框架为未来带来了巨大的希望,而泊松流生成模型仅仅是一个开始。”

矢量AI门户网,优质AI资讯内容平台

(0)
上一篇 2023年10月17日 上午11:38
下一篇 2023年10月23日 上午11:30

相关推荐

  • A16Z:大模型应用的新兴架构

    在这篇文章里,我们将分享新兴 LLM 应用栈的参考架构。该架构将展示我们见过的人工智能初创企业与顶尖科技公司使用的最常见的系统、工具以及设计模式。这个技术栈还比较原始,可能会随着底层技术的进步而出现重大变化,但我们希望它能为现在从事 LLM 开发的开发者提供有用的参考。

    2023年7月17日
    126
  • 详解Modular:LLVM之父如何打造未来AI引擎语言?

    编译器 (Compiler),是一种将高级编程语言翻译成计算机可执行代码的软件工具,编译器将程序员编写的源代码转换成计算机可以理解和执行的二进制指令,这些指令被打包成可执行文件或库,以便在计算机上运行程序。

    2023年9月17日
    95
  • 一行代码提高大模型10%性能,开发者:免费午餐

    在7B参数量的Llama 2上甚至出现了性能翻倍的结果,Mistral也有四分之一的增长。虽然这种方法用在监督微调阶段,但RLHF模型也能从中受益。

    2023年10月23日
    98

发表回复

登录后才能评论