正文:
随着人工智能技术的飞速发展,多模交互时代已经到来。在这个时代,让大模型具备听、说能力成为了研究热点。近日,国内机构启元世界多模态算法组成功开源了全球首个端到端语音对话模型Mini-Omni,为语音交互领域带来了新的突破。
Mini-Omni模型的研发团队由来自清华大学的一年级硕士生谢之非和启元世界多模态负责人吴昌桥共同组成,他们的研究兴趣主要集中在多模态大模型和LLM Agents等领域。据悉,该论文上线短短几天内在github上就收获了1000+星标。
Mini-Omni模型的提出,旨在解决现有语音对话系统中存在的缺陷。传统的语音对话系统主要包含三个过程:将语音内容转换为文本、利用大语言模型进行文本推理、利用语音合成系统生成并输出语音。然而,这种多阶段串联系统存在一些问题,如模型无法理解语音中包含的情绪等非文本内容信息,以及由于额外的语音识别及合成带来的时间开销导致AI回复迟缓等实时性问题。
针对这些问题,Mini-Omni模型提出了文本-语音同时生成的方案,通过让已生成的文本token指导生成语音token,有效降低了直接推理语音内容的难度,同时避免了等待生成完整文本答案带来的时间消耗。
Mini-Omni模型的整体架构如下:输入端可以是语音或文本,输出端同时包含文本和语音。模型采用了SNAC编解码方案,针对语音交互场景,输入语音经过预训练whisper的语音编码模块进行连续特征提取,然后通过2层MLP对齐语音信息与文本信息。输出侧,每一步会通过音频解码头和文本解码头同时进行文本token与语音token解码,然后将输出的音频表征和文本表征进行特征融合,再作为下一步的输入。
为了实现实时语音推理,Mini-Omni模型采用了延迟并行推理的方案。具体来说,模型每一步同时生成8个token,包括7个语音token和1个文本token。这种文本指导下的音频生成方式,不仅降低了直接推理语音信息的学习难度,还减少了推理过程中语音token的长度。
此外,Mini-Omni模型还提出了一种主要基于适配器的模型能力扩展方法。该方法分为三个阶段:首先进行模态对齐,增强文本模型理解和生成语音的能力;其次进行适应训练,关注模型在给定音频输入时的文本推理能力;最后进行语音适配器训练,使模型具备语音交互能力。
为了验证Mini-Omni模型的有效性,研究团队在实时语音问答及语音识别等方面进行了测试。结果表明,Mini-Omni模型在使用仅0.5B的小模型和少量开源及合成数据的情况下,表现出令人惊喜的效果。
Mini-Omni模型的发布,将为语音交互领域带来新的发展机遇。相信在不久的将来,这种具有听、说能力的大模型将为人们的生活带来更多便利。
Views: 0