科大开源Llasa TTS，语音合成新突破！

香港，[日期] – 香港科技大学近日开源了一款名为 Llasa TTS 的文本转语音（TTS）模型，为语音合成领域带来了新的可能性。该模型基于 LLaMA 架构，旨在实现高质量的语音合成和克隆，为开发者和研究人员提供了一个强大的工具。

Llasa TTS 的核心优势在于其能够生成自然流畅的语音，并支持情感表达和音色克隆等高级功能。与传统的 TTS 模型相比，Llasa TTS 在训练和推理阶段都表现出色，通过扩展训练时间和推理时间的计算资源，显著提升了语音的自然度、韵律准确性和情感表达能力。

Llasa TTS 基于 Transformer 架构，并采用单层向量量化（VQ）编解码器，将语音波形转换为离散的语音标记，然后利用 Transformer 进行建模。其技术原理主要包括以下几个方面：

语音分词器： 将语音信号分解为语义特征和声学特征，分别基于预训练的 Wav2Vec2-BERT 和卷积模块提取。
量化： 使用改进的向量量化（VQ）技术将特征编码为离散标记。
解码： 将离散标记解码回高质量的语音波形，支持语义和声学信息的重建。
训练与推理扩展： 通过增加模型规模（提供 1B、3B 和 8B 参数规模的模型）或训练数据量（如 250k 小时语音数据），提升语音自然度和韵律准确性。在推理阶段，引入语音理解模型作为验证器，并采用复杂的搜索策略（如束搜索、最佳候选选择）优化生成结果，增强情感表达和音色一致性。
自回归生成： 基于自回归生成方式，逐个生成语音标记，确保生成的语音在语义和韵律上与输入文本一致。

Llasa TTS 的开源将极大地推动语音合成技术的发展和应用。其高质量的语音合成能力和灵活的定制化功能，使其在以下领域具有广泛的应用前景：

感兴趣的开发者和研究人员可以通过以下链接获取 Llasa TTS 的相关资源：

Llasa TTS 的开源是香港科技大学在人工智能领域的重要贡献。这款模型不仅具有卓越的性能，还为语音合成技术的研究和应用提供了新的思路和方向。相信在不久的将来，Llasa TTS 将会在各个领域发挥重要作用，为人们的生活带来更多便利和乐趣。

参考文献：

Zhenye, et al. LLaSA: Large Language and Speech Audio Model. arXiv preprint arXiv:2502.04128 (2025).
GitHub repository: https://github.com/zhenye234/LLaSA_training
HuggingFace Model Hub: https://huggingface.co/collections/HKUSTAudio/llasa