Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海 – 复旦大学OpenMOSS团队近日发布了SpeechGPT 2.0-preview,一款基于百万小时级中文语音数据训练的端到端实时语音交互模型。该模型以其拟人化的口语表达、毫秒级的低延迟响应以及对情感、风格和音色的精准控制,预示着人机语音交互领域即将迎来一场革新。

技术突破:端到端架构与超低比特率语音Codec

SpeechGPT 2.0-preview的核心在于其端到端架构,该架构实现了语音与文本模态的高度融合,摒弃了传统级联式ASR(语音识别)和TTS(语音合成)模块,直接处理语音输入并生成语音或文本输出。这一突破性的设计,极大地提升了响应速度和交互的自然流畅度。

该模型采用自研的超低比特率流式语音Codec,能够处理24kHz的语音输入,并将语音压缩至每秒75个token。这种高效的压缩技术,使得SpeechGPT 2.0-preview能够在200毫秒以内实现实时交互,为用户带来近乎无感的延迟体验。

核心功能:情感控制、实时打断与文本能力集成

SpeechGPT 2.0-preview不仅具备强大的语音处理能力,还在情感与风格控制方面表现出色。它支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,使得角色扮演能力更加突出。

该模型还支持自然对话中的实时打断与续接,用户可以在对话过程中随时打断,模型能够迅速理解并作出回应。此外,SpeechGPT 2.0-preview在语音表现力的基础上,保留了文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能,进一步拓展了其应用场景。

技术原理:语义-声学联合建模与多阶段训练

SpeechGPT 2.0-preview的技术原理主要包括以下几个方面:

  • 语义-声学联合建模: 直接处理语音输入并生成语音或文本输出,无需传统级联式 ASR 和 TTS 模块。
  • Codec Patchify: 通过聚合相邻时间步的语音 token 为统一向量,有效减小语音和文本序列之间的模态差异。
  • 多阶段训练流程: 包括模态适应预训练、跨模态指令微调和链式模态微调,兼顾文本能力与语音能力。
  • 语音文本对齐预训练: 使模型“涌现”出语音风格的泛化性,例如无需语速调整数据即可控制语速,或模仿未见过的角色语气风格。

应用场景:智能助手、内容创作与无障碍通信

SpeechGPT 2.0-preview的应用前景广阔,涵盖了多个领域:

  • 智能助手: 可用于客服、教育或医疗等领域的智能助手,提供实时口语练习、情感陪伴等服务。
  • 内容创作: 自动生成有声书、诗歌朗诵或方言内容,丰富多媒体创作形式。
  • 无障碍通信: 为听障或言语障碍者提供实时语音转文字及合成服务。

项目地址与体验方式

感兴趣的开发者和研究人员可以通过以下链接了解更多信息并体验SpeechGPT 2.0-preview:

展望未来

SpeechGPT 2.0-preview的发布,不仅是复旦大学OpenMOSS团队在人工智能领域取得的重要成果,也为整个语音交互领域带来了新的可能性。随着技术的不断发展和完善,我们有理由相信,SpeechGPT 2.0-preview将在未来的智能助手、内容创作和无障碍通信等领域发挥更大的作用,为人们的生活带来更多便利和惊喜。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注