阿里通义开源R1-Omni：全模态AI新突破

北京报道 – 阿里巴巴通义实验室近日开源了其最新的全模态大语言模型R1-Omni，该模型专注于情感识别任务，并展现出卓越的情感理解能力。R1-Omni的发布，标志着人工智能在理解和分析人类情感方面迈出了重要一步，为社交媒体分析、心理健康评估等领域带来了新的可能性。

R1-Omni并非简单地识别情感，更重要的是能够解释情感识别的推理过程。该模型通过结合视觉和音频信息，对输入的视频或音频内容进行情感识别，并生成详细的推理过程，让人们了解模型是如何整合视觉和音频线索得出预测的。这种可解释性是R1-Omni的一大亮点，使其在众多情感识别模型中脱颖而出。

R1-Omni的技术核心在于其采用的强化学习（RLVR）训练范式和GRPO（生成相对策略优化）方法。

RLVR训练范式： 传统的强化学习通常依赖于单独的奖励模型，而RLVR则直接基于验证函数评估模型输出，简化了奖励机制，并确保了与任务内在正确性标准的一致性。这意味着模型能够更准确地理解情感识别的本质。
GRPO方法： GRPO通过直接比较生成的响应组，避免了使用额外的评论家模型，增强了模型区分高质量和低质量输出的能力。这使得R1-Omni能够提供更连贯、准确和可解释的推理过程。

此外，R1-Omni还采用了受DeepSeek-R1启发的冷启动策略，首先在包含情感推理数据集上进行微调，使模型具备初步的推理能力，然后通过RLVR训练进一步优化模型。

R1-Omni的应用场景广泛，潜力巨大：

阿里巴巴选择开源R1-Omni，无疑将加速其在各领域的应用和发展。研究人员和开发者可以基于R1-Omni进行二次开发，探索更多可能性。

R1-Omni的开源项目地址如下：

随着人工智能技术的不断发展，我们有理由相信，R1-Omni这样的全模态大语言模型将在情感理解领域发挥越来越重要的作用，为人类社会带来更多福祉。

参考文献

（完）

>>> Read more <<<