Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

news studionews studio
0

扩散模型训练方法的颠覆:表征对齐技术让生成更简单

Representation matters. Representation matters. Representation matters. 纽约大学著名研究者谢赛宁三连呼喊“Representation matters”,这并非简单的强调,而是对扩散模型训练方法的深刻反思。他指出,我们可能一直都在用错误的方法训练扩散模型,而表征对齐技术(REPA)的出现,将彻底改变这一现状。

表征对齐:让扩散 Transformer 训练更简单

传统的扩散模型训练方法主要关注像素级别的生成,忽略了模型内部表征的质量。谢赛宁团队发现,当生成式扩散模型得到来自另一个模型(例如自监督视觉编码器)的外部高质量表征支持时,其性能可以得到大幅提升。REPA 正是基于这一发现而诞生的。

REPA 是一种简单的正则化技术,它将预训练的自监督视觉表征蒸馏到扩散 Transformer 中,让扩散模型可以利用这些语义丰富的外部表征进行生成。简单来说,REPA 就是将一张清晰图像的预训练自监督视觉表征“蒸馏”成一个有噪声输入的扩散 Transformer 表征。

REPA 的效果:效率和效果双提升

REPA 的效果显著,它能够大幅提升模型训练的效率和效果。研究表明,REPA 可以将收敛速度提升 17.5 倍以上。在生成质量方面,REPA 在使用带引导间隔的无分类器引导时,取得了 FID=1.42 的当前最佳结果。

REPA 背后的观察:扩散 Transformer 表征的局限性

REPA 的诞生基于该团队对扩散 Transformer 表征的深入研究。他们发现,扩散 Transformer 表征在学习语义丰富的表征方面存在局限性,其性能远低于自监督视觉编码器。这表明,扩散 Transformer 倾向于学习生成高频细节的图像,而不是学习语义丰富的表征。

REPA 的意义:生成模型的未来方向

REPA 的出现,为扩散模型的训练方法提供了新的思路,它表明即使对生成模型而言,表征也依然有用。REPA 的成功,也为未来生成模型的研究指明了方向,即需要更加重视模型内部表征的质量,并充分利用外部高质量表征的信息。

Yann LeCun 对 REPA 的认可

Yann LeCun 对 REPA 的研究表示了认可,他认为 REPA 证明了即使只对生成像素感兴趣,也应该包含特征预测损失,以便解码器的内部表征可以根据预训练的视觉编码器预测特征。

结论

REPA 的出现,是扩散模型训练方法的一次重大突破。它不仅能够大幅提升模型训练的效率和效果,还为生成模型的未来发展指明了方向。随着 REPA 的不断发展和应用,我们可以期待生成模型在未来能够取得更大的突破,为我们带来更加逼真、更加智能的生成结果。

参考文献

  • Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think. arXiv preprint arXiv:2410.06940.

注: 本文根据提供的资料进行创作,并参考了相关研究论文和新闻报道。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注