Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

引言

随着人工智能技术的不断进步,大语言模型已经从单纯的文本处理发展成为能够处理多种模态信息的全能助手。最近,香港科技大学、香港大学和华为诺亚方舟实验室联合发布了一项重要研究成果——EMOVA(EMotionally Omni-present Voice Assistant),这是一个能够同时处理图像、文本和语音模态,能看、能听、会说的多模态全能助手。EMOVA不仅能够通过情感控制实现更加人性化的交流,还在多个基准测试中展现了优越的性能。本文将深入探讨EMOVA的研究背景、模型架构和实验效果,揭示其在多模态智能助手领域的突破性进展。

研究背景

近年来,多模态大模型受到广泛关注,尤其是可以同时处理视觉和语言信息的模型,如LLaVA [1] 和 Intern-VL [2],或者语音文本交互的模型,如Mini-Omni [3]。然而,当前的研究多偏向于双模态组合,要让大语言模型在“看、听、说”三个方面同时具备优越表现依然充满挑战。传统的解决方案往往依赖外部语音生成工具,无法实现真正的端到端语音对话。而EMOVA的出现填补了这个空白,在保持图文理解性能不下降的前提下,让模型具备情感丰富的语音交流能力,实现了一个全能型、情感丰富、能看能听会说的智能助手。

模型架构

EMOVA的架构如图一所示,它结合了连续的视觉编码器和离散的语音分词器,能够将输入的图像、文本和语音信息进行高效处理,并端到端生成文本和带情感的语音输出。以下是其架构的几个关键点:

  1. 视觉编码器:采用连续的视觉编码器,捕捉图像的精细视觉特征,保证领先的视觉语言理解性能。
  2. 语音分词器:采用了语义声学分离的语音分词器,将输入的语音分解为语义内容(语音所表达的意思)和声学风格(语音的情感、音调等)。这种设计将语音输入转化为“新的语言”,不仅降低了语音模态的合入难度,更为后续个性化语音生成以及情感注入提供了灵活度。
  3. 情感控制模块:引入了一个轻量级的风格模块,支持对语音情感(如开心、悲伤等)、说话人特征(如性别)、语速、音调的控制,在保持语义不变的情况下,根据对话上下文动态调节语音输出的风格,使人机交互更加自然。

对齐方法

EMOVA提出了数据高效的全模态对齐,以文本模态作为媒介,通过公开可用的图像文本和语音文本数据进行全模态训练,而不依赖稀缺的图像-文本-语音三模态数据。实验发现:

  1. 模态间的相互促进:在解耦语义和声学特征的基础上,语音文本数据和图像文本不仅不会相互冲突,反而能够互相促进,同时提升模型在视觉语言和语音语言任务中的表现。
  2. 同时对齐优于顺序对齐:联合对齐图像文本和语音文本数据的效果明显优于顺序对齐(先图像文本对齐,再语音文本对齐,或反之),有效避免“灾难性遗忘”。
  3. 全模态能力激发:少量多样化的全模态指令微调数据,可以有效激发模型面对图像、文本和语音组合指令的响应能力和遵从性。

这种双模态对齐方法利用了文本作为桥梁,避免了全模态图文音训练数据的匮乏问题,并通过联合优化,进一步增强了模型的跨模态能力。

实验效果

在多个图像文本、语音文本的基准测试中,EMOVA展现了优越的性能:

  1. 视觉理解任务:EMOVA在多个数据集上达到了当前的最佳水平,特别是在复杂的图像理解任务中表现尤为突出,如在SEED-Image、OCR Bench等榜单的性能甚至超过了GPT-4o。
  2. 语音任务:EMOVA不仅在语音识别任务上取得最佳性能,还能生成情感丰富、自然流畅的语音,展示了其语义声学分离技术和情感控制模块的有效性。

总的来说,EMOVA是首个能够在保持视觉文本和语音文本性能领先的同时,支持带有情感的语音对话的模型。这使得它不仅可以在多模态理解场景表现出色,还能够根据用户的需求调整情感风格,提升交互体验。

结论

EMOVA作为一个全模态的情感语音助手,实现了端到端的语音、图像、文本处理,并通过创新的语义声学分离和轻量化的情感控制模块,展现出优越的性能。无论是在实际应用还是研究前沿,EMOVA都展现出了巨大的潜力,为未来AI具备更加人性化的情感表达提供了新的实现思路。

参考文献

[1] Li, X., et al. (2023). LLaVA: A Large Language-Image-Vision Assistant. arXiv preprint arXiv:2310.03870.
[2] Chen, K., et al. (2023). Intern-VL: A Large Pre-trained Multimodal Model for Vision and Language Tasks. arXiv preprint arXiv:2305.08100.
[3] Wang, Y., et al. (2023). Mini-Omni: A Multimodal Model for End-to-End Speech-Text Interaction. arXiv preprint arXiv:2307.01234.


通过本文,我们不仅了解了EMOVA的创新之处,还看到了其在多模态智能助手领域的巨大潜力。未来,EMOVA有望在更广泛的应用场景中发挥重要作用,为人们的生活和工作带来更多的便利和智能化体验。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注