Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

智源发布原生多模态世界模型Emu3,宣称实现图像、文本、视频大一统

北京,2024年10月21日 – 智源研究院今日发布了原生多模态世界模型Emu3,宣称该模型实现了图像、文本、视频三种模态数据的理解和生成的大一统。这一突破标志着人工智能领域向通用人工智能迈出了重要一步。

Emu3 的核心创新在于其基于“下一个 token 预测”的范式,无需依赖扩散模型或组合方法。它通过一个强大的视觉 tokenizer 将图像和视频转换为离散 token,并将这些 token 与文本 tokenizer 输出的离散 token 一起送入模型。这种统一的 token 表示方式使得 Emu3 能够在文本、图像和视频之间进行无缝转换,为 Any-to-Any 的多模态任务提供了更加统一的研究范式。

Emu3 的主要优势:

  • 多模态理解和生成能力: Emu3 能够理解和生成文本、图像和视频,并在各种多模态任务中展现出优异的性能。
  • 超越语言本身的大规模多模态学习: Emu3 突破了传统语言模型的局限,实现了超越语言本身的大规模多模态学习,为人工智能发展开辟了新的方向。
  • 高效的训练和推理: Emu3 将复杂的多模态设计收敛到 token 本身,在训练和推理过程中展现出高效性,释放了大规模多模态模型的潜力。

Emu3 的性能表现:

  • 图像生成: 在人类偏好评测中,Emu3 的图像生成能力超越了 Stable Diffusion 1.5 和 SDXL 模型。
  • 视觉语言理解: 在 12 项基准测试中,Emu3 的平均得分超过了 LlaVA-1.6。
  • 视频生成: 在 VBench 基准测试中,Emu3 的得分超过了 OpenSora 1.2。

Emu3 的开源与未来展望:

智源研究院已开源了 Emu3的关键技术和模型,为学术界和产业界提供了宝贵的资源。这一举措将加速多模态人工智能的研究和应用,推动人工智能技术在各个领域的应用落地。

Emu3 的发布标志着多模态人工智能领域取得了重大进展,为实现通用人工智能的目标提供了新的可能性。未来,随着技术的不断发展,多模态人工智能将进一步融合文本、图像、视频等多种信息,为人类社会带来更多便利和创新。

相关链接:

  • 代码:https://github.com/baaivision/Emu3
  • 项目页面:https://emu.baai.ac.cn/
  • 模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

结论:

智源研究院发布的原生多模态世界模型Emu3,以其独特的“下一个 token 预测”范式和强大的多模态理解和生成能力,为人工智能领域带来了新的突破。Emu3 的开源将加速多模态人工智能技术的发展,推动人工智能在各个领域的应用落地,并为实现通用人工智能的目标奠定了基础。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注