复旦发布SpeechGPT 2.0，实时语音交互新突破！

上海 – 复旦大学OpenMOSS团队近日发布了SpeechGPT 2.0-preview，一款基于百万小时级中文语音数据训练的端到端实时语音交互模型。该模型以其拟人化的口语表达、毫秒级的低延迟响应以及对情感、风格和音色的精准控制，预示着人机语音交互领域即将迎来一场革新。

技术突破：端到端架构与超低比特率语音Codec

SpeechGPT 2.0-preview的核心在于其端到端架构，该架构实现了语音与文本模态的高度融合，摒弃了传统级联式ASR（语音识别）和TTS（语音合成）模块，直接处理语音输入并生成语音或文本输出。这一突破性的设计，极大地提升了响应速度和交互的自然流畅度。

该模型采用自研的超低比特率流式语音Codec，能够处理24kHz的语音输入，并将语音压缩至每秒75个token。这种高效的压缩技术，使得SpeechGPT 2.0-preview能够在200毫秒以内实现实时交互，为用户带来近乎无感的延迟体验。

核心功能：情感控制、实时打断与文本能力集成

SpeechGPT 2.0-preview不仅具备强大的语音处理能力，还在情感与风格控制方面表现出色。它支持多情感（如虚弱、欢快）、多音色（男女切换）及多风格（诗歌朗诵、方言模仿）的精准控制，使得角色扮演能力更加突出。

该模型还支持自然对话中的实时打断与续接，用户可以在对话过程中随时打断，模型能够迅速理解并作出回应。此外，SpeechGPT 2.0-preview在语音表现力的基础上，保留了文本模型的智商，支持工具调用、联网搜索、外挂知识库接入等功能，进一步拓展了其应用场景。

技术原理：语义-声学联合建模与多阶段训练

SpeechGPT 2.0-preview的技术原理主要包括以下几个方面：

语义-声学联合建模： 直接处理语音输入并生成语音或文本输出，无需传统级联式 ASR 和 TTS 模块。
Codec Patchify： 通过聚合相邻时间步的语音 token 为统一向量，有效减小语音和文本序列之间的模态差异。
多阶段训练流程： 包括模态适应预训练、跨模态指令微调和链式模态微调，兼顾文本能力与语音能力。
语音文本对齐预训练： 使模型“涌现”出语音风格的泛化性，例如无需语速调整数据即可控制语速，或模仿未见过的角色语气风格。

应用场景：智能助手、内容创作与无障碍通信

SpeechGPT 2.0-preview的应用前景广阔，涵盖了多个领域：

智能助手： 可用于客服、教育或医疗等领域的智能助手，提供实时口语练习、情感陪伴等服务。
内容创作： 自动生成有声书、诗歌朗诵或方言内容，丰富多媒体创作形式。
无障碍通信： 为听障或言语障碍者提供实时语音转文字及合成服务。

项目地址与体验方式

感兴趣的开发者和研究人员可以通过以下链接了解更多信息并体验SpeechGPT 2.0-preview：

项目官网： https://www.open-moss.com/cn/speechgpt2-preview/
GitHub仓库： https://github.com/OpenMOSS/SpeechGPT-2.0-preview
HuggingFace模型库： https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
在线体验Demo： https://sp2.open-moss.com/

展望未来

SpeechGPT 2.0-preview的发布，不仅是复旦大学OpenMOSS团队在人工智能领域取得的重要成果，也为整个语音交互领域带来了新的可能性。随着技术的不断发展和完善，我们有理由相信，SpeechGPT 2.0-preview将在未来的智能助手、内容创作和无障碍通信等领域发挥更大的作用，为人们的生活带来更多便利和惊喜。

参考文献：

OpenMOSS. (n.d.). SpeechGPT 2.0-preview. Retrieved from https://www.open-moss.com/cn/speechgpt2-preview/
OpenMOSS. (n.d.). SpeechGPT-2.0-preview (GitHub repository). Retrieved from https://github.com/OpenMOSS/SpeechGPT-2.0-preview
fnlp. (n.d.). SpeechGPT-2.0-preview-7B (Hugging Face model). Retrieved from https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
OpenMOSS. (n.d.). SpeechGPT 2.0-preview Demo. Retrieved from https://sp2.open-moss.com/

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

复旦发布SpeechGPT 2.0，实时语音交互新突破！

作者智能小编

技术突破：端到端架构与超低比特率语音Codec

核心功能：情感控制、实时打断与文本能力集成

技术原理：语义-声学联合建模与多阶段训练

应用场景：智能助手、内容创作与无障碍通信

项目地址与体验方式

展望未来

相关文章

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

发表回复取消回复

为您推荐

Here are a few options playing with different angles Long-Chain Thinking Massive Review Unlocks AI’s Reasoning Futu

AI老兵两年实战：经验之谈

AI研发工具大比拼：2025谁执牛耳？

Unlock the Power of Transformers From Theory to Hands-On Code

作者智能小编

技术突破：端到端架构与超低比特率语音Codec

核心功能：情感控制、实时打断与文本能力集成

技术原理：语义-声学联合建模与多阶段训练

应用场景：智能助手、内容创作与无障碍通信

项目地址与体验方式

展望未来

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复