Meta发布多模态语言模型Spirit LM，语音文本无缝融合

Meta 推出多模态语言模型 Spirit LM：语音与文本无缝融合，开启AI新纪元

Meta AI 团队近日发布了多模态语言模型 Spirit LM，该模型能够无缝地混合文本和语音数据，标志着人工智能领域迈向跨模态融合的新里程碑。

Spirit LM 基于一个预训练的文本语言模型，通过持续在文本和语音单元上进行训练，扩展到语音模态。模型拥有两个版本：基础版 (BASE) 和表达版 (EXPRESSIVE)。基础版使用语音语义单元，而表达版则在语义单元的基础上，加入音高和风格单元，以模拟语音的表达性。

Spirit LM的核心优势在于其跨模态语言生成能力，能够实现文本和语音之间的无缝切换。 它结合了文本模型的语义能力和语音模型的表达能力，能够生成既具有语义理解能力的文本，又具有语音表达能力的语音。更重要的是，Spirit LM 在少量样本的情况下，就能快速学习新任务，例如自动语音识别 (ASR)、文本到语音 (TTS) 和语音分类。

Spirit LM 的技术原理主要包括以下几个方面：

预训练和扩展：基于预训练的文本语言模型，通过持续在文本和语音单元上进行训练，扩展模型的语音处理能力。
交错训练： 采用词级交错方法，将语音和文本序列连接为单一的标记集进行训练，实现语音和文本之间的对齐。
双模态标记：
- 基础版 (BASE)：使用语音语义单元（如 HuBERT 标记）。
- 表达版 (EXPRESSIVE)：除了语义单元外，还结合音高 (F0) 和风格单元，捕捉语音的表达性。
  *编码和解码：
- 编码器：将语音转换为标记，使用 HuBERT 等模型进行语音编码。
- 解码器：将标记还原为原始模态（文本或语音）。
数据集和训练： 使用大规模的文本数据集和语音数据集，并基于对齐的语音+文本数据集进行交错训练。