智源发布原生多模态世界模型Emu3,宣称实现图像、文本、视频大一统
北京,2024年10月21日 – 智源研究院今日发布了原生多模态世界模型Emu3,宣称该模型实现了图像、文本、视频三种模态数据的理解和生成的大一统。这一突破标志着人工智能领域向通用人工智能迈出了重要一步。
Emu3 的核心创新在于其基于“下一个 token 预测”的范式,无需依赖扩散模型或组合方法。它通过一个强大的视觉 tokenizer 将图像和视频转换为离散 token,并将这些 token 与文本 tokenizer 输出的离散 token 一起送入模型。这种统一的 token 表示方式使得 Emu3 能够在文本、图像和视频之间进行无缝转换,为 Any-to-Any 的多模态任务提供了更加统一的研究范式。
Emu3 的主要优势:
- 多模态理解和生成能力: Emu3 能够理解和生成文本、图像和视频,并在各种多模态任务中展现出优异的性能。
- 超越语言本身的大规模多模态学习: Emu3 突破了传统语言模型的局限,实现了超越语言本身的大规模多模态学习,为人工智能发展开辟了新的方向。
- 高效的训练和推理: Emu3 将复杂的多模态设计收敛到 token 本身,在训练和推理过程中展现出高效性,释放了大规模多模态模型的潜力。
Emu3 的性能表现:
- 图像生成: 在人类偏好评测中,Emu3 的图像生成能力超越了 Stable Diffusion 1.5 和 SDXL 模型。
- 视觉语言理解: 在 12 项基准测试中,Emu3 的平均得分超过了 LlaVA-1.6。
- 视频生成: 在 VBench 基准测试中,Emu3 的得分超过了 OpenSora 1.2。
Emu3 的开源与未来展望:
智源研究院已开源了 Emu3的关键技术和模型,为学术界和产业界提供了宝贵的资源。这一举措将加速多模态人工智能的研究和应用,推动人工智能技术在各个领域的应用落地。
Emu3 的发布标志着多模态人工智能领域取得了重大进展,为实现通用人工智能的目标提供了新的可能性。未来,随着技术的不断发展,多模态人工智能将进一步融合文本、图像、视频等多种信息,为人类社会带来更多便利和创新。
相关链接:
- 代码:https://github.com/baaivision/Emu3
- 项目页面:https://emu.baai.ac.cn/
- 模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f
结论:
智源研究院发布的原生多模态世界模型Emu3,以其独特的“下一个 token 预测”范式和强大的多模态理解和生成能力,为人工智能领域带来了新的突破。Emu3 的开源将加速多模态人工智能技术的发展,推动人工智能在各个领域的应用落地,并为实现通用人工智能的目标奠定了基础。
Views: 0