Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824
0

北京 – 2024年3月27日,阿里巴巴通义千问团队在深夜投下了一颗重磅炸弹——正式开源其全新旗舰级多模态大模型Qwen2.5-Omni。这款拥有70亿参数的模型,不仅具备处理文本、图像、音频和视频等多种输入的能力,更支持流式的文本生成和自然语音合成输出,为用户带来前所未有的“语音聊天 + 视频聊天”体验。

这一举动引发了业界的高度关注。Qwen2.5-Omni的开源,意味着开发者和企业可以免费下载并商用该模型,甚至可以在手机等终端智能硬件上轻松部署运行。

多模态融合:AI交互的未来形态

Qwen2.5-Omni的核心亮点在于其强大的多模态融合能力。它能够像人类一样,通过“看、听、说、写”等多种感官渠道理解世界,并进行自然流畅的交互。

  • 全模态感知: Qwen2.5-Omni可以无缝处理文本、图像、音频和视频等多种输入,这意味着它可以理解用户通过各种方式表达的需求。
  • 流式生成与合成: 模型支持流式的文本生成和自然语音合成输出,使得AI交互更加实时和自然,用户可以像打电话或进行视频通话一样与Qwen聊天。

技术架构创新:Thinker-Talker架构与TMRoPE

Qwen2.5-Omni的强大能力背后,是其创新的技术架构。

  • Thinker-Talker架构: 团队提出了Thinker-Talker架构,这是一个端到端的多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。其中,“Thinker”负责处理和理解输入信息,生成高级表示和文本;“Talker”则负责以流式方式接收Thinker的输出,并流畅地输出离散的语音token。
  • TMRoPE(Time-aligned Multimodal RoPE): 团队还提出了一种名为TMRoPE的新型位置嵌入,用于同步视频输入与音频的时间戳,从而实现更精准的多模态理解。

性能卓越:超越同级别模型

经过全面评估,Qwen2.5-Omni在所有模态上的表现均优于类似大小的单模态模型以及闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

  • 多模态任务: 在需要集成多种模态的任务中,如OmniBench,Qwen2.5-Omni达到了最先进的水平。
  • 单模态任务: 在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU, MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和 subjective naturalness)。

开源意义:加速AI应用普及

Qwen2.5-Omni的开源,无疑将加速AI技术的普及和应用。

  • 降低开发门槛: 开发者和企业可以免费获取Qwen2.5-Omni,降低了AI应用的开发成本和门槛。
  • 推动创新: 开源模式将吸引更多开发者参与到Qwen2.5-Omni的改进和创新中,推动AI技术的不断发展。
  • 赋能各行业: Qwen2.5-Omni的多模态能力可以应用于智能客服、智能家居、智能教育、智能医疗等多个领域,为各行业带来新的发展机遇。

未来展望:AI交互的无限可能

Qwen2.5-Omni的发布,标志着AI技术在多模态融合方面取得了重要突破。随着技术的不断发展,我们有理由相信,未来的AI交互将更加自然、智能和个性化,为人类带来更美好的生活体验。

相关链接:

参考文献:

(完)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注