阿里通义开源R1-Omni，全模态AI新突破！

北京报道 – 阿里巴巴通义实验室近日宣布开源其最新的全模态大语言模型R1-Omni。这款模型专注于情感识别任务，通过结合视觉和音频信息，实现了对人类情感更深层次的理解和更准确的判断。R1-Omni的开源，无疑为人工智能领域的情感计算研究注入了新的活力。

引人入胜的情感识别

在人机交互日益频繁的今天，机器理解人类情感变得至关重要。R1-Omni正是为了解决这一难题而生。它不仅能够识别视频和音频中的情感，还能生成详细的推理过程，解释其判断的依据，从而增强了模型的可解释性。

R1-Omni的核心功能

多模态情感分析： R1-Omni能够同时处理视觉和音频信息，准确判断其中所表达的情感。
可解释的推理过程： 模型给出情感识别结果的同时，还能生成详细的推理过程，解释模型是如何整合视觉和音频线索得出预测的。
基于RLVR的训练： R1-Omni采用RLVR训练范式，基于可验证奖励函数直接评估输出，无需依赖单独的奖励模型，简化了奖励机制。
GRPO方法应用： 结合GRPO（生成相对策略优化）方法，直接比较生成的响应组，避免使用额外的评论家模型，增强了模型区分高质量和低质量输出的能力。
理解能力提高和泛化能力更强： 在多个情感识别数据集上，R1-Omni的情感识别准确率显著优于其他模型，在分布外（OOD）数据集上表现出色，能够更好地适应未见场景。

技术原理：RLVR与GRPO的巧妙结合

R1-Omni的技术核心在于RLVR（Reinforcement Learning with Verifiable Rewards）训练范式和GRPO（Grouped Relative Policy Optimization）方法。

RLVR的核心思想是基于验证函数直接评估模型输出，无需依赖传统的人类反馈强化学习（RLHF）中的单独奖励模型。给定输入问题q，策略模型πθ生成响应o，然后使用可验证奖励函数R(q,o)对其进行评估，优化目标是最大化验证奖励减去基于KL散度的正则化项。

GRPO则是对传统PPO（近端策略优化）的改进，它避免了使用额外的评论家模型，直接比较生成的响应组。通过针对一个问题q，采样多组输出{o1, o2,…, oG}，并对每个输出计算奖励分{r1, r2,…, rG}，然后对这些奖励分进行归一化处理，形成相对奖励，从而更直接地反映同一问题下不同输出的优劣关系。

冷启动策略与奖励函数设计

R1-Omni的模型构建采用了受DeepSeek-R1启发的冷启动策略，首先在包含232个可解释多模态情感推理数据集（EMER）样本和348个手动标注的HumanOmni数据集样本的组合数据集上，对HumanOmni-0.5B进行微调，使模型具备初步的推理能力。

在RLVR训练过程中，奖励函数由两部分组成：准确率奖励和格式奖励。准确率奖励用于评估预测情感与真实情感的匹配度，格式奖励确保模型输出符合指定的HTML标签格式，保证了情感识别的准确性和输出的可解释性。

广泛的应用前景

R1-Omni的应用前景十分广阔，包括：

情感分析： 可用于社交媒体管理、舆情监测、消费者情感分析等场景，帮助企业更有效地与目标用户互动。
内容创作辅助： 结合AI绘画与写作工具，为市场营销、广告创意等提供优质的解决方案。
心理健康评估： R1-Omni可以分析患者的情绪表达，辅助心理健康专业人士进行评估和干预。
教育领域： 在在线教育中，R1-Omni可以分析学生的情绪反应，帮助教师调整教学策略。

开源地址

Github仓库：https://github.com/HumanMLLM/R1-Omni
HuggingFace模型库：https://huggingface.co/StarJiaxing/R1-Omni-0.5B
arXiv技术论文：https://arxiv.org/pdf/2503.05379

结论

R1-Omni的开源，不仅展示了阿里巴巴在人工智能领域的强大实力，也为全球的研究者和开发者提供了一个强大的工具。随着R1-Omni的不断发展和完善，我们有理由相信，它将在情感计算领域发挥越来越重要的作用，为人类创造更加智能、更加人性化的未来。

参考文献

HumanMLLM. (2024). R1-Omni Github Repository. Retrieved from https://github.com/HumanMLLM/R1-Omni
StarJiaxing. (2024). R1-Omni-0.5B HuggingFace Model. Retrieved from https://huggingface.co/StarJiaxing/R1-Omni-0.5B
arXiv. (2024). R1-Omni Technical Paper. Retrieved from https://arxiv.org/pdf/2503.05379

（完）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

阿里通义开源R1-Omni，全模态AI新突破！

作者智能小编

相关文章

豆包1.5发布“视觉版”！大模型多模态推理时代来临

Gemma 3 QAT Cutting-Edge AI Now Runs on Consumer GPUs

Gemma 3 QAT：消费级GPU上的AI新突破

发表回复取消回复

为您推荐