Meta的研究人员与Waymo等机构的专家合作,近日提出了一种名为Transfusion的新方法,该方法旨在融合Transformer和Diffusion模型,以实现多模态模型在离散和连续数据上的高效训练。Transfusion的引入标志着多模态生成模型领域的一个重要突破,为未来的多模态技术奠定了基础。
突破传统界限:多模态模型的融合
传统的多模态生成模型通常需要处理离散(如文本)和连续(如图像)数据。语言模型在处理离散模态时占据主导地位,而扩散模型则在连续模态生成中表现出色。然而,将两者有效结合一直是一项挑战。Transfusion通过训练单一模型来预测文本token和扩散连续图像,实现了离散与连续模态的无缝集成,避免了信息损失。
Transfusion:统一生成模型
Transfusion的核心是将语言模型的损失函数与扩散模型相结合,通过单一的Transformer在混合模态序列上进行训练。这一创新方法允许模型在不牺牲信息的情况下,同时理解和生成离散与连续数据。研究团队在文本和图像数据混合的基础上,从零开始预训练了多个Transfusion模型,参数量最大可达70亿。
实验验证:超越现有基准
实验结果显示,Transfusion在扩展能力和性能上显著优于将图像量化并用语言模型训练的方法。通过特定于模态的编码和解码层,模型性能得到进一步提升,甚至可以将图像压缩到仅16个patch。在GenEval基准测试中,70亿参数量的Transfusion模型超越了DALL-E 2和SDXL等流行模型,同时在文本生成上达到与Llama 1相当的水平。
未来展望:多模态领域的领军者
Transfusion的出色表现预示着它有可能成为训练真正多模态模型的新标准。通过结合图像和文本生成的优势,该模型在两个领域都达到了领先水平。研究团队进一步扩展Transfusion至70亿参数和2万亿多模态token,为多模态生成树立了新的标杆。
Transfusion的出现不仅推动了多模态技术的发展,也为人工智能在图像和文本理解与生成的应用开辟了新的可能,有望在自动驾驶、人机交互、媒体生成等多个领域发挥重要作用。
【source】https://www.jiqizhixin.com/articles/2024-08-26-8
Views: 1