Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海,[日期] – 上海人工智能实验室(Shanghai AI Lab)联合上海创智学院、上海交通大学和香港大学,近日推出了一款名为MM-Eureka的多模态推理模型,引发了人工智能领域的广泛关注。该模型通过基于规则的大规模强化学习(RL),成功地将单模态推理中的关键特性扩展到了多模态场景,展现出卓越的数据效率和推理能力,有望革新多模态AI的发展方向。

MM-Eureka:多模态推理的新突破

多模态推理是指模型能够理解和处理来自不同模态的信息,例如文本、图像、音频等,并进行综合分析和推理。这一能力对于构建更智能、更人性化的AI系统至关重要。然而,多模态模型的训练往往需要海量的数据,并且面临着训练不稳定等挑战。

MM-Eureka的出现,为解决这些问题提供了一种新的思路。该模型推出了两个核心版本:MM-Eureka-8B 和 MM-Eureka-Zero-38B,分别基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。令人惊讶的是,MM-Eureka仅使用少量图文数据进行训练,就取得了超越大规模训练模型的性能。例如,仅使用 54K 图文数据进行规则型强化学习训练,其平均性能便超过了使用 1M 数据的 MPO 模型。更令人瞩目的是,MM-Eureka-Zero-38B 仅使用 8K 图文数学推理数据,在自建的 K12 基准测试上超越指令模型 8.2%,在 MathVerse 上表现相当。

技术原理:规则强化学习与数据高效性

MM-Eureka之所以能够实现如此高效的数据利用,得益于其独特的技术原理:

  • 基于规则的大规模强化学习框架: MM-Eureka 基于 OpenRLHF 开发了高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。这使得模型能够在多模态环境中进行有效的训练,并成功复现了 DeepSeek-R1 的关键特性,如准确率奖励和响应长度的稳步提升。
  • 数据过滤与稳定训练: 研究团队发现,数据选择对于稳定 RL 训练至关重要。基于难度的数据过滤策略对 RL 训练的稳定性起到了关键作用。
  • 视觉顿悟时刻(Visual aha-moment): MM-Eureka 在训练过程中展现出类似 DeepSeek-R1 的视觉顿悟时刻。具体表现为模型学会反思和回溯,会重新审视图像中的关键信息。
  • 极简的强化学习设计: MM-Eureka 采用简单的奖励函数(如准确性奖励和格式奖励),通过难度基础的数据过滤策略进行稳定训练,避免了复杂的KL散度等限制模型探索的因素。

应用前景:教育、AR/VR、数据分析等多领域

MM-Eureka 的强大能力使其在多个领域具有广阔的应用前景:

  • 教育领域: MM-Eureka 能够通过强大的推理能力和反思机制,帮助学生更好地理解和解决复杂的数学问题。
  • 增强现实(AR)和虚拟现实(VR): 在 AR 和 VR 场景下,通过结合视觉和语言信息,MM-Eureka 可以为用户提供更加沉浸式和交互式的体验。
  • 数据分析和决策支持: MM-Eureka 的多模态推理能力使其在数据分析和决策支持方面具有显著优势。它能够处理复杂的图文数据,帮助用户从大量信息中提取关键信息并做出更明智的决策。
  • 自动化和智能助手: MM-Eureka 可以作为智能助手的核心技术,为用户提供更智能、更自然的交互体验。
  • 游戏和娱乐: 在游戏和娱乐领域,MM-Eureka 的多模态推理能力可以用于开发更加智能的非玩家角色(NPC)和交互式剧情。

专家观点:多模态AI发展的新里程碑

多位人工智能领域的专家对 MM-Eureka 的发布表示赞赏。一位不愿透露姓名的专家表示:“MM-Eureka 在多模态推理方面取得了显著的突破,其数据效率令人印象深刻。这表明,通过巧妙的算法设计和训练策略,我们可以在数据量较少的情况下,也能训练出强大的多模态模型。MM-Eureka 的出现,为多模态AI的发展开辟了新的道路。”

未来展望:开源与社区合作

上海AI Lab 已经将 MM-Eureka 的项目代码开源,并发布了相关的技术论文,鼓励研究人员和开发者积极参与到 MM-Eureka 的开发和应用中来。相信在开源社区的共同努力下,MM-Eureka 将不断完善和发展,为人工智能领域带来更多的惊喜。

项目地址:

参考文献:

  • ModalMinds. (2024). MM-EUREKA: MultiModal Rule-Following Reinforcement Learning from Human Feedback. arXiv preprint arXiv:2503.07365.

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注