小米新一代语音识别算法CR-CTC，纯CTC性能SOTA

北京 – 在人工智能语音识别领域，小米集团新一代Kaldi团队的最新研究成果引起了广泛关注。该团队的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》已被国际顶级会议ICLR 2025接收。这项研究提出了一种名为CR-CTC（Consistency-Regularized CTC）的新算法，在纯CTC（Connectionist Temporal Classification）模型上实现了语音识别性能的显著提升，甚至可以与Transducer和CTC/AED等更复杂的模型相媲美。

背景：CTC算法的局限与挑战

CTC作为一种简单且易于部署的语音识别算法，长期以来受到研究人员的青睐。然而，由于其性能通常落后于Transducer和CTC/AED等模型，这限制了CTC在实际应用中的广泛使用。新一代Kaldi团队正是瞄准了这一痛点，致力于突破CTC算法的性能瓶颈。

CR-CTC：一致性正则化助力纯CTC性能飞跃

由Kaldi之父、IEEE fellow、小米集团首席语音科学家Daniel Povey领衔的新一代Kaldi团队，通过对语音技术链路的重构，从神经网络声学编码器、损失函数、优化器和解码器等多个方面入手，最终提出了CR-CTC算法。

CR-CTC的核心思想是在训练过程中引入一致性正则化，通过对同一个输入语音信号生成两个不同的增强视图，并约束这两个视图的CTC概率分布的一致性，从而提高模型的泛化能力和鲁棒性。

CR-CTC算法的具体实现步骤如下：

生成增强视图： 对同一个输入Mel-spectrogram x，使用SpecAugment方法生成两个不同的增强视图x1和x2。SpecAugment包含time warping、frequency masking和time masking等技术。为了避免time warping导致的时间戳错位，在创建增强视图之前先应用time warping。
计算CTC概率分布： 将两个增强视图分别输入参数共享的encoder模型f，得到对应的两个CTC概率分布p1和p2。
引入一致性正则化损失： 除了计算两个CTC损失Lctc1和Lctc2之外，还引入一致性正则化损失Lcr来约束两个分布的一致性。Lcr通过最小化每一对分布p1和p2之间的双向KL散度来实现。
优化总体损失： 系统总体损失L为Lctc1 + Lctc2 + αLcr，其中α为控制正则的超参数，默认设置为0.2。

实验结果：SOTA性能，比肩复杂模型

为了验证CR-CTC算法的有效性，新一代Kaldi团队在多个主流的ASR数据集上进行了实验，包括LibriSpeech、Aishell-1、GigaSpeech等。实验结果表明，CR-CTC在这些数据集上均取得了新的SOTA（State-of-the-Art）结果，且无需依赖外部训练数据和外部语言模型。

例如，在LibriSpeech数据集上训练Zipformer-L模型，标准CTC的WER（Word Error Rate，词错误率）为2.5/5.72，CTC/AED的WER为2.09/4.59, Pruned Transducer的WER为2.00/4.38；而CR-CTC的WER为2.02/4.35，性能与Transducer模型相当。更令人惊喜的是，将CR-CTC与CTC/AED和Pruned Transducer联合训练后，WER可分别进一步降低到1.96/4.08和1.88/3.95。

算法本质：多角度解读CR-CTC的优势

论文从三个不同的角度来解释CR-CTC的本质行为：

Self-distillation（自蒸馏）： CR-CTC可以被视为一种自蒸馏方法，其中一个增强视图的输出分布作为另一个增强视图的目标分布，从而提高模型的泛化能力。
Masked prediction（掩码预测）： SpecAugment中的masking操作可以被视为一种掩码预测，模型需要根据未被掩盖的信息来预测被掩盖的信息，从而提高模型的鲁棒性。
Peak suppression（峰值抑制）： CR-CTC可以抑制CTC概率分布中的虚假峰值，从而提高模型的准确性。

开源项目：助力语音技术发展

目前，新一代Kaldi项目（https://github.com/k2-fsa）主要由四个子项目构成：核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合Icefall以及服务端引擎Sherpa，方便开发者轻松训练、部署自己的智能语音模型。CR-CTC的代码已经合并到Icefall框架中，供研究人员和开发者使用。

展望：语音识别技术的未来

小米新一代Kaldi团队的CR-CTC算法的成功，不仅为纯CTC模型的性能提升带来了新的希望，也为语音识别技术的发展注入了新的活力。随着CR-CTC等先进算法的不断涌现，我们有理由相信，未来的语音识别技术将更加准确、高效和智能，为人们的生活带来更多便利。

参考文献：

[1] Graves, A., et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. ICML. 2006.
[2] Graves, A. Sequence transduction with recurrent neural networks. ICML. 2012.
[3] Watanabe, S., et al. Hybrid CTC/attention architecture for end-to-end speech recognition. IEEE Journal of Selected Topics in Signal Processing. 2017.
[4] Park, D. S., et al. SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. Interspeech. 2019.
[5] Srivastava, N., et al. Dropout: a simple way to prevent neural networks from overfitting. JMLR. 2014.
[6] Huang, G., et al. Deep networks with stochastic depth. ECCV. 2016.

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

小米新一代语音识别算法CR-CTC，纯CTC性能SOTA

作者智能小编

相关文章

豆包1.5发布“视觉版”！大模型多模态推理时代来临

Gemma 3 QAT Cutting-Edge AI Now Runs on Consumer GPUs

Gemma 3 QAT：消费级GPU上的AI新突破

发表回复取消回复

为您推荐