上海 – 复旦大学OpenMOSS团队近日发布了SpeechGPT 2.0-preview,一款基于百万小时级中文语音数据训练的端到端实时语音交互模型。该模型以其拟人化的口语表达、毫秒级的低延迟响应以及对情感、风格和音色的精准控制,预示着人机语音交互领域即将迎来一场革新。
技术突破:端到端架构与超低比特率语音Codec
SpeechGPT 2.0-preview的核心在于其端到端架构,该架构实现了语音与文本模态的高度融合,摒弃了传统级联式ASR(语音识别)和TTS(语音合成)模块,直接处理语音输入并生成语音或文本输出。这一突破性的设计,极大地提升了响应速度和交互的自然流畅度。
该模型采用自研的超低比特率流式语音Codec,能够处理24kHz的语音输入,并将语音压缩至每秒75个token。这种高效的压缩技术,使得SpeechGPT 2.0-preview能够在200毫秒以内实现实时交互,为用户带来近乎无感的延迟体验。
核心功能:情感控制、实时打断与文本能力集成
SpeechGPT 2.0-preview不仅具备强大的语音处理能力,还在情感与风格控制方面表现出色。它支持多情感(如虚弱、欢快)、多音色(男女切换)及多风格(诗歌朗诵、方言模仿)的精准控制,使得角色扮演能力更加突出。
该模型还支持自然对话中的实时打断与续接,用户可以在对话过程中随时打断,模型能够迅速理解并作出回应。此外,SpeechGPT 2.0-preview在语音表现力的基础上,保留了文本模型的智商,支持工具调用、联网搜索、外挂知识库接入等功能,进一步拓展了其应用场景。
技术原理:语义-声学联合建模与多阶段训练
SpeechGPT 2.0-preview的技术原理主要包括以下几个方面:
- 语义-声学联合建模: 直接处理语音输入并生成语音或文本输出,无需传统级联式 ASR 和 TTS 模块。
- Codec Patchify: 通过聚合相邻时间步的语音 token 为统一向量,有效减小语音和文本序列之间的模态差异。
- 多阶段训练流程: 包括模态适应预训练、跨模态指令微调和链式模态微调,兼顾文本能力与语音能力。
- 语音文本对齐预训练: 使模型“涌现”出语音风格的泛化性,例如无需语速调整数据即可控制语速,或模仿未见过的角色语气风格。
应用场景:智能助手、内容创作与无障碍通信
SpeechGPT 2.0-preview的应用前景广阔,涵盖了多个领域:
- 智能助手: 可用于客服、教育或医疗等领域的智能助手,提供实时口语练习、情感陪伴等服务。
- 内容创作: 自动生成有声书、诗歌朗诵或方言内容,丰富多媒体创作形式。
- 无障碍通信: 为听障或言语障碍者提供实时语音转文字及合成服务。
项目地址与体验方式
感兴趣的开发者和研究人员可以通过以下链接了解更多信息并体验SpeechGPT 2.0-preview:
- 项目官网: https://www.open-moss.com/cn/speechgpt2-preview/
- GitHub仓库: https://github.com/OpenMOSS/SpeechGPT-2.0-preview
- HuggingFace模型库: https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- 在线体验Demo: https://sp2.open-moss.com/
展望未来
SpeechGPT 2.0-preview的发布,不仅是复旦大学OpenMOSS团队在人工智能领域取得的重要成果,也为整个语音交互领域带来了新的可能性。随着技术的不断发展和完善,我们有理由相信,SpeechGPT 2.0-preview将在未来的智能助手、内容创作和无障碍通信等领域发挥更大的作用,为人们的生活带来更多便利和惊喜。
参考文献:
- OpenMOSS. (n.d.). SpeechGPT 2.0-preview. Retrieved from https://www.open-moss.com/cn/speechgpt2-preview/
- OpenMOSS. (n.d.). SpeechGPT-2.0-preview (GitHub repository). Retrieved from https://github.com/OpenMOSS/SpeechGPT-2.0-preview
- fnlp. (n.d.). SpeechGPT-2.0-preview-7B (Hugging Face model). Retrieved from https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
- OpenMOSS. (n.d.). SpeechGPT 2.0-preview Demo. Retrieved from https://sp2.open-moss.com/
Views: 0