北京 – 人工智能公司出门问问近日正式推出其第七代语音合成引擎TicVoice 7.0。这款引擎基于新一代语音生成模型Spark-TTS,以其强大的语音克隆能力、多角色情绪演绎和广播级音质,标志着AI配音技术进入了一个新的阶段。
TicVoice 7.0的核心亮点在于其创新的BiCodec编码方式。该技术将语音分解为Global Token(全局特征,如音色)和Semantic Tokens(语义相关特征),实现了音色与语义的精准控制。这种分解方式不仅解决了传统语音编码中语义token难以精准控制音色的问题,也避免了声学编码对多个码本的依赖。
3秒语音克隆:个性化配音触手可及
TicVoice 7.0最引人注目的功能之一是其3秒语音克隆技术。用户只需提供3秒的语音样本,引擎即可精准复刻个性化音色,即使是低质量的音频输入也能达到理想效果。这一技术的突破,极大地降低了用户定制专属声音的门槛,让个性化配音触手可及。
多角色情绪演绎:让AI配音更富表现力
除了语音克隆,TicVoice 7.0还支持多角色与多情绪演绎。引擎能够模拟开心、生气、伤心等多种情绪,增强内容的表现力。同时,它还支持全龄段声音适配,涵盖从儿童到老年人的多样化音色,满足不同场景的需求。此外,TicVoice 7.0还支持中英文灵活切换,助力多语言内容创作。
技术原理:与文本LLMs结构统一
TicVoice 7.0的技术原理也颇具亮点。它复用了Qwen2.5的架构,基于属性标签(如性别、基频等级)和细粒度属性值(如精确基频),用文本+属性标签为输入,依次预测细粒度属性值 → Global Tokens → Semantic Tokens。这种设计实现了语音token建模与文本token建模的高度一致。此外,引擎采用单阶段、单流生成方式,无需额外生成模型辅助,提升了生成效率和可控性。
应用场景广泛:赋能各行各业
TicVoice 7.0的应用场景十分广泛,涵盖了智能客服、有声读物与播客、影视配音与解说、情感直播与互动、教育与培训等多个领域。
- 智能客服: 为在线客服系统提供自然流畅的语音交互能力,提升用户体验,降低人力成本。
- 有声读物与播客: 快速生成高质量的有声书、播客内容,支持多角色和情感表达,增强听众的沉浸感。
- 影视配音与解说: 高效完成影视、短视频的配音和解说工作,支持多语言切换,降低制作成本。
- 情感直播与互动: 在直播中模拟真实情感,增强主播与观众的互动性,提升内容吸引力。
- 教育与培训: 为在线教育平台提供生动的语音教学内容,支持多语言和多角色,提升学习体验。
魔音工坊:体验TicVoice 7.0的平台
目前,TicVoice 7.0已在出门问问旗下的魔音工坊“3s声音克隆”功能上线。用户可以通过魔音工坊体验TicVoice 7.0的各项功能,感受其带来的极致AI配音体验。
未来展望:AI配音的无限可能
TicVoice 7.0的发布,不仅是出门问问在语音合成技术上的又一次突破,也预示着AI配音技术在未来的无限可能。随着技术的不断发展,AI配音将会在更多领域得到应用,为人们的生活和工作带来更多便利。
参考文献:
- AI工具集. (n.d.). TicVoice 7.0 – 出门问问推出的第七代语音合成引擎. Retrieved from https://www.ai-tool.cn/aitools/17478.html
Views: 0