阿里深夜突袭！通义千问2.5-Omni震撼开源

北京 – 2024年3月27日，阿里巴巴通义千问团队在深夜投下了一颗重磅炸弹——正式开源其全新旗舰级多模态大模型Qwen2.5-Omni。这款拥有70亿参数的模型，不仅具备处理文本、图像、音频和视频等多种输入的能力，更支持流式的文本生成和自然语音合成输出，为用户带来前所未有的“语音聊天 + 视频聊天”体验。

这一举动引发了业界的高度关注。Qwen2.5-Omni的开源，意味着开发者和企业可以免费下载并商用该模型，甚至可以在手机等终端智能硬件上轻松部署运行。

多模态融合：AI交互的未来形态

Qwen2.5-Omni的核心亮点在于其强大的多模态融合能力。它能够像人类一样，通过“看、听、说、写”等多种感官渠道理解世界，并进行自然流畅的交互。

全模态感知： Qwen2.5-Omni可以无缝处理文本、图像、音频和视频等多种输入，这意味着它可以理解用户通过各种方式表达的需求。
流式生成与合成： 模型支持流式的文本生成和自然语音合成输出，使得AI交互更加实时和自然，用户可以像打电话或进行视频通话一样与Qwen聊天。

技术架构创新：Thinker-Talker架构与TMRoPE

Qwen2.5-Omni的强大能力背后，是其创新的技术架构。

Thinker-Talker架构： 团队提出了Thinker-Talker架构，这是一个端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。其中，“Thinker”负责处理和理解输入信息，生成高级表示和文本；“Talker”则负责以流式方式接收Thinker的输出，并流畅地输出离散的语音token。
TMRoPE（Time-aligned Multimodal RoPE）： 团队还提出了一种名为TMRoPE的新型位置嵌入，用于同步视频输入与音频的时间戳，从而实现更精准的多模态理解。

性能卓越：超越同级别模型

经过全面评估，Qwen2.5-Omni在所有模态上的表现均优于类似大小的单模态模型以及闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

多模态任务： 在需要集成多种模态的任务中，如OmniBench，Qwen2.5-Omni达到了最先进的水平。
单模态任务： 在单模态任务中，Qwen2.5-Omni在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU, MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和 subjective naturalness）。

开源意义：加速AI应用普及

Qwen2.5-Omni的开源，无疑将加速AI技术的普及和应用。

降低开发门槛： 开发者和企业可以免费获取Qwen2.5-Omni，降低了AI应用的开发成本和门槛。
推动创新： 开源模式将吸引更多开发者参与到Qwen2.5-Omni的改进和创新中，推动AI技术的不断发展。
赋能各行业： Qwen2.5-Omni的多模态能力可以应用于智能客服、智能家居、智能教育、智能医疗等多个领域，为各行业带来新的发展机遇。

未来展望：AI交互的无限可能

Qwen2.5-Omni的发布，标志着AI技术在多模态融合方面取得了重要突破。随着技术的不断发展，我们有理由相信，未来的AI交互将更加自然、智能和个性化，为人类带来更美好的生活体验。

相关链接：

体验地址：https://chat.qwen.ai/
论文地址：https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
博客地址：https://qwenlm.github.io/blog/qwen2.5-omni/
GitHub 地址：https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face 地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

参考文献：

Qwen2.5-Omni Technical Report: https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf

（完）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

阿里深夜突袭！通义千问2.5-Omni震撼开源

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐