北京 – 2024年3月27日,阿里巴巴通义千问团队在深夜投下了一颗重磅炸弹——正式开源其全新旗舰级多模态大模型Qwen2.5-Omni。这款拥有70亿参数的模型,不仅具备处理文本、图像、音频和视频等多种输入的能力,更支持流式的文本生成和自然语音合成输出,为用户带来前所未有的“语音聊天 + 视频聊天”体验。
这一举动引发了业界的高度关注。Qwen2.5-Omni的开源,意味着开发者和企业可以免费下载并商用该模型,甚至可以在手机等终端智能硬件上轻松部署运行。
多模态融合:AI交互的未来形态
Qwen2.5-Omni的核心亮点在于其强大的多模态融合能力。它能够像人类一样,通过“看、听、说、写”等多种感官渠道理解世界,并进行自然流畅的交互。
- 全模态感知: Qwen2.5-Omni可以无缝处理文本、图像、音频和视频等多种输入,这意味着它可以理解用户通过各种方式表达的需求。
- 流式生成与合成: 模型支持流式的文本生成和自然语音合成输出,使得AI交互更加实时和自然,用户可以像打电话或进行视频通话一样与Qwen聊天。
技术架构创新:Thinker-Talker架构与TMRoPE
Qwen2.5-Omni的强大能力背后,是其创新的技术架构。
- Thinker-Talker架构: 团队提出了Thinker-Talker架构,这是一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。其中,“Thinker”负责处理和理解输入信息,生成高级表示和文本;“Talker”则负责以流式方式接收Thinker的输出,并流畅地输出离散的语音token。
- TMRoPE(Time-aligned Multimodal RoPE): 团队还提出了一种名为TMRoPE的新型位置嵌入,用于同步视频输入与音频的时间戳,从而实现更精准的多模态理解。
性能卓越:超越同级别模型
经过全面评估,Qwen2.5-Omni在所有模态上的表现均优于类似大小的单模态模型以及闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
- 多模态任务: 在需要集成多种模态的任务中,如OmniBench,Qwen2.5-Omni达到了最先进的水平。
- 单模态任务: 在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU, MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和 subjective naturalness)。
开源意义:加速AI应用普及
Qwen2.5-Omni的开源,无疑将加速AI技术的普及和应用。
- 降低开发门槛: 开发者和企业可以免费获取Qwen2.5-Omni,降低了AI应用的开发成本和门槛。
- 推动创新: 开源模式将吸引更多开发者参与到Qwen2.5-Omni的改进和创新中,推动AI技术的不断发展。
- 赋能各行业: Qwen2.5-Omni的多模态能力可以应用于智能客服、智能家居、智能教育、智能医疗等多个领域,为各行业带来新的发展机遇。
未来展望:AI交互的无限可能
Qwen2.5-Omni的发布,标志着AI技术在多模态融合方面取得了重要突破。随着技术的不断发展,我们有理由相信,未来的AI交互将更加自然、智能和个性化,为人类带来更美好的生活体验。
相关链接:
- 体验地址:https://chat.qwen.ai/
- 论文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
- 博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/
- GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
- Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
- ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
参考文献:
- Qwen2.5-Omni Technical Report: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
(完)
Views: 0