上海AI Lab重磅发布：多模态推理模型MM-Eureka

“`markdown

上海AI Lab联合上交大等推出多模态推理模型MM-Eureka，数据效率惊人

上海，[日期] – 上海人工智能实验室（Shanghai AI Lab）联合上海创智学院、上海交通大学和香港大学，近日推出了一款名为MM-Eureka的多模态推理模型，该模型在数据效率方面表现出色，引发了人工智能领域的广泛关注。

MM-Eureka旨在扩展单模态推理中的关键特性到多模态场景，能够同时处理文本和视觉信息，进行更复杂、更深入的推理。该模型通过基于规则的大规模强化学习（RL），在教育、增强现实、数据分析等多个领域展现出巨大的应用潜力。

MM-Eureka推出了两个核心模型：MM-Eureka-8B 和 MM-Eureka-Zero-38B，分别基于 InternVL2.5-Instruct-8B 和 InternVL2.5-Pretrained-38B。其核心技术和优势主要体现在以下几个方面：

数据高效性： 仅使用 54K 图文数据进行规则型 RL 训练，MM-Eureka 的平均性能就超过了使用 1M 数据的 MPO 模型。更令人惊讶的是，MM-Eureka-Zero-38B 仅使用 8K 图文数学推理数据，在自建的 K12 基准测试上超越指令模型 8.2%，在 MathVerse 上表现相当。这种数据效率的提升，极大地降低了模型训练的成本和门槛。
视觉顿悟时刻（Visual aha-moment）： MM-Eureka 在训练过程中展现出类似 DeepSeek-R1 的视觉顿悟时刻，能够反思和回溯，重新审视图像中的关键信息。这表明模型具备一定的认知能力，能够更好地理解和处理视觉信息。
极简的强化学习设计： MM-Eureka 采用简单的奖励函数（如准确性奖励和格式奖励），通过难度基础的数据过滤策略进行稳定训练。这种极简的设计避免了过度复杂的模型结构，提高了训练的稳定性和效率。

MM-Eureka 的多模态推理能力使其在多个领域具有广泛的应用前景：

尽管 MM-Eureka 在数据效率和多模态推理方面取得了显著进展，但仍然面临一些挑战。例如，如何进一步提高模型的泛化能力，使其能够适应更复杂的现实场景？如何解决多模态数据中的噪声和歧义，提高模型的鲁棒性？

未来，上海人工智能实验室等机构将继续深入研究 MM-Eureka 的技术原理，探索其在更多领域的应用潜力。随着人工智能技术的不断发展，我们有理由相信，MM-Eureka 将在推动人工智能的进步和应用方面发挥重要作用。

参考文献：

ModalMinds. (2024). MM-Eureka: MultiModal Reasoning with Rules-based Reinforcement Learning. arXiv preprint arXiv:2503.07365.
“`