扩散模型训练方法的颠覆:表征对齐技术让生成更简单
Representation matters. Representation matters. Representation matters. 纽约大学著名研究者谢赛宁三连呼喊“Representation matters”,这并非简单的强调,而是对扩散模型训练方法的深刻反思。他指出,我们可能一直都在用错误的方法训练扩散模型,而表征对齐技术(REPA)的出现,将彻底改变这一现状。
表征对齐:让扩散 Transformer 训练更简单
传统的扩散模型训练方法主要关注像素级别的生成,忽略了模型内部表征的质量。谢赛宁团队发现,当生成式扩散模型得到来自另一个模型(例如自监督视觉编码器)的外部高质量表征支持时,其性能可以得到大幅提升。REPA 正是基于这一发现而诞生的。
REPA 是一种简单的正则化技术,它将预训练的自监督视觉表征蒸馏到扩散 Transformer 中,让扩散模型可以利用这些语义丰富的外部表征进行生成。简单来说,REPA 就是将一张清晰图像的预训练自监督视觉表征“蒸馏”成一个有噪声输入的扩散 Transformer 表征。
REPA 的效果:效率和效果双提升
REPA 的效果显著,它能够大幅提升模型训练的效率和效果。研究表明,REPA 可以将收敛速度提升 17.5 倍以上。在生成质量方面,REPA 在使用带引导间隔的无分类器引导时,取得了 FID=1.42 的当前最佳结果。
REPA 背后的观察:扩散 Transformer 表征的局限性
REPA 的诞生基于该团队对扩散 Transformer 表征的深入研究。他们发现,扩散 Transformer 表征在学习语义丰富的表征方面存在局限性,其性能远低于自监督视觉编码器。这表明,扩散 Transformer 倾向于学习生成高频细节的图像,而不是学习语义丰富的表征。
REPA 的意义:生成模型的未来方向
REPA 的出现,为扩散模型的训练方法提供了新的思路,它表明即使对生成模型而言,表征也依然有用。REPA 的成功,也为未来生成模型的研究指明了方向,即需要更加重视模型内部表征的质量,并充分利用外部高质量表征的信息。
Yann LeCun 对 REPA 的认可
Yann LeCun 对 REPA 的研究表示了认可,他认为 REPA 证明了即使只对生成像素感兴趣,也应该包含特征预测损失,以便解码器的内部表征可以根据预训练的视觉编码器预测特征。
结论
REPA 的出现,是扩散模型训练方法的一次重大突破。它不仅能够大幅提升模型训练的效率和效果,还为生成模型的未来发展指明了方向。随着 REPA 的不断发展和应用,我们可以期待生成模型在未来能够取得更大的突破,为我们带来更加逼真、更加智能的生成结果。
参考文献
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think. arXiv preprint arXiv:2410.06940.
注: 本文根据提供的资料进行创作,并参考了相关研究论文和新闻报道。
Views: 0