北京 – 在人工智能语音识别领域,小米集团新一代Kaldi团队的最新研究成果引起了广泛关注。该团队的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》已被国际顶级会议ICLR 2025接收。这项研究提出了一种名为CR-CTC(Consistency-Regularized CTC)的新算法,在纯CTC(Connectionist Temporal Classification)模型上实现了语音识别性能的显著提升,甚至可以与Transducer和CTC/AED等更复杂的模型相媲美。
背景:CTC算法的局限与挑战
CTC作为一种简单且易于部署的语音识别算法,长期以来受到研究人员的青睐。然而,由于其性能通常落后于Transducer和CTC/AED等模型,这限制了CTC在实际应用中的广泛使用。新一代Kaldi团队正是瞄准了这一痛点,致力于突破CTC算法的性能瓶颈。
CR-CTC:一致性正则化助力纯CTC性能飞跃
由Kaldi之父、IEEE fellow、小米集团首席语音科学家Daniel Povey领衔的新一代Kaldi团队,通过对语音技术链路的重构,从神经网络声学编码器、损失函数、优化器和解码器等多个方面入手,最终提出了CR-CTC算法。
CR-CTC的核心思想是在训练过程中引入一致性正则化,通过对同一个输入语音信号生成两个不同的增强视图,并约束这两个视图的CTC概率分布的一致性,从而提高模型的泛化能力和鲁棒性。
CR-CTC算法的具体实现步骤如下:
- 生成增强视图: 对同一个输入Mel-spectrogram x,使用SpecAugment方法生成两个不同的增强视图x1和x2。SpecAugment包含time warping、frequency masking和time masking等技术。为了避免time warping导致的时间戳错位,在创建增强视图之前先应用time warping。
- 计算CTC概率分布: 将两个增强视图分别输入参数共享的encoder模型f,得到对应的两个CTC概率分布p1和p2。
- 引入一致性正则化损失: 除了计算两个CTC损失Lctc1和Lctc2之外,还引入一致性正则化损失Lcr来约束两个分布的一致性。Lcr通过最小化每一对分布p1和p2之间的双向KL散度来实现。
- 优化总体损失: 系统总体损失L为Lctc1 + Lctc2 + αLcr,其中α为控制正则的超参数,默认设置为0.2。
实验结果:SOTA性能,比肩复杂模型
为了验证CR-CTC算法的有效性,新一代Kaldi团队在多个主流的ASR数据集上进行了实验,包括LibriSpeech、Aishell-1、GigaSpeech等。实验结果表明,CR-CTC在这些数据集上均取得了新的SOTA(State-of-the-Art)结果,且无需依赖外部训练数据和外部语言模型。
例如,在LibriSpeech数据集上训练Zipformer-L模型,标准CTC的WER(Word Error Rate,词错误率)为2.5/5.72,CTC/AED的WER为2.09/4.59, Pruned Transducer的WER为2.00/4.38;而CR-CTC的WER为2.02/4.35,性能与Transducer模型相当。更令人惊喜的是,将CR-CTC与CTC/AED和Pruned Transducer联合训练后,WER可分别进一步降低到1.96/4.08和1.88/3.95。
算法本质:多角度解读CR-CTC的优势
论文从三个不同的角度来解释CR-CTC的本质行为:
- Self-distillation(自蒸馏): CR-CTC可以被视为一种自蒸馏方法,其中一个增强视图的输出分布作为另一个增强视图的目标分布,从而提高模型的泛化能力。
- Masked prediction(掩码预测): SpecAugment中的masking操作可以被视为一种掩码预测,模型需要根据未被掩盖的信息来预测被掩盖的信息,从而提高模型的鲁棒性。
- Peak suppression(峰值抑制): CR-CTC可以抑制CTC概率分布中的虚假峰值,从而提高模型的准确性。
开源项目:助力语音技术发展
目前,新一代Kaldi项目(https://github.com/k2-fsa)主要由四个子项目构成:核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合Icefall以及服务端引擎Sherpa,方便开发者轻松训练、部署自己的智能语音模型。CR-CTC的代码已经合并到Icefall框架中,供研究人员和开发者使用。
展望:语音识别技术的未来
小米新一代Kaldi团队的CR-CTC算法的成功,不仅为纯CTC模型的性能提升带来了新的希望,也为语音识别技术的发展注入了新的活力。随着CR-CTC等先进算法的不断涌现,我们有理由相信,未来的语音识别技术将更加准确、高效和智能,为人们的生活带来更多便利。
参考文献:
- [1] Graves, A., et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. ICML. 2006.
- [2] Graves, A. Sequence transduction with recurrent neural networks. ICML. 2012.
- [3] Watanabe, S., et al. Hybrid CTC/attention architecture for end-to-end speech recognition. IEEE Journal of Selected Topics in Signal Processing. 2017.
- [4] Park, D. S., et al. SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. Interspeech. 2019.
- [5] Srivastava, N., et al. Dropout: a simple way to prevent neural networks from overfitting. JMLR. 2014.
- [6] Huang, G., et al. Deep networks with stochastic depth. ECCV. 2016.
Views: 0