Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

北京报道 – 阿里巴巴通义实验室近日宣布开源其最新的全模态大语言模型R1-Omni。这款模型专注于情感识别任务,通过结合视觉和音频信息,实现了对人类情感更深层次的理解和更准确的判断。R1-Omni的开源,无疑为人工智能领域的情感计算研究注入了新的活力。

引人入胜的情感识别

在人机交互日益频繁的今天,机器理解人类情感变得至关重要。R1-Omni正是为了解决这一难题而生。它不仅能够识别视频和音频中的情感,还能生成详细的推理过程,解释其判断的依据,从而增强了模型的可解释性。

R1-Omni的核心功能

  • 多模态情感分析: R1-Omni能够同时处理视觉和音频信息,准确判断其中所表达的情感。
  • 可解释的推理过程: 模型给出情感识别结果的同时,还能生成详细的推理过程,解释模型是如何整合视觉和音频线索得出预测的。
  • 基于RLVR的训练: R1-Omni采用RLVR训练范式,基于可验证奖励函数直接评估输出,无需依赖单独的奖励模型,简化了奖励机制。
  • GRPO方法应用: 结合GRPO(生成相对策略优化)方法,直接比较生成的响应组,避免使用额外的评论家模型,增强了模型区分高质量和低质量输出的能力。
  • 理解能力提高和泛化能力更强: 在多个情感识别数据集上,R1-Omni的情感识别准确率显著优于其他模型,在分布外(OOD)数据集上表现出色,能够更好地适应未见场景。

技术原理:RLVR与GRPO的巧妙结合

R1-Omni的技术核心在于RLVR(Reinforcement Learning with Verifiable Rewards)训练范式和GRPO(Grouped Relative Policy Optimization)方法。

RLVR的核心思想是基于验证函数直接评估模型输出,无需依赖传统的人类反馈强化学习(RLHF)中的单独奖励模型。给定输入问题q,策略模型πθ生成响应o,然后使用可验证奖励函数R(q,o)对其进行评估,优化目标是最大化验证奖励减去基于KL散度的正则化项。

GRPO则是对传统PPO(近端策略优化)的改进,它避免了使用额外的评论家模型,直接比较生成的响应组。通过针对一个问题q,采样多组输出{o1, o2,…, oG},并对每个输出计算奖励分{r1, r2,…, rG},然后对这些奖励分进行归一化处理,形成相对奖励,从而更直接地反映同一问题下不同输出的优劣关系。

冷启动策略与奖励函数设计

R1-Omni的模型构建采用了受DeepSeek-R1启发的冷启动策略,首先在包含232个可解释多模态情感推理数据集(EMER)样本和348个手动标注的HumanOmni数据集样本的组合数据集上,对HumanOmni-0.5B进行微调,使模型具备初步的推理能力。

在RLVR训练过程中,奖励函数由两部分组成:准确率奖励和格式奖励。准确率奖励用于评估预测情感与真实情感的匹配度,格式奖励确保模型输出符合指定的HTML标签格式,保证了情感识别的准确性和输出的可解释性。

广泛的应用前景

R1-Omni的应用前景十分广阔,包括:

  • 情感分析: 可用于社交媒体管理、舆情监测、消费者情感分析等场景,帮助企业更有效地与目标用户互动。
  • 内容创作辅助: 结合AI绘画与写作工具,为市场营销、广告创意等提供优质的解决方案。
  • 心理健康评估: R1-Omni可以分析患者的情绪表达,辅助心理健康专业人士进行评估和干预。
  • 教育领域: 在在线教育中,R1-Omni可以分析学生的情绪反应,帮助教师调整教学策略。

开源地址

结论

R1-Omni的开源,不仅展示了阿里巴巴在人工智能领域的强大实力,也为全球的研究者和开发者提供了一个强大的工具。随着R1-Omni的不断发展和完善,我们有理由相信,它将在情感计算领域发挥越来越重要的作用,为人类创造更加智能、更加人性化的未来。

参考文献

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注