Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 在人工智能语音识别领域,小米集团新一代Kaldi团队的最新研究成果引起了广泛关注。该团队的论文《CR-CTC: Consistency regularization on CTC for improved speech recognition》已被国际顶级会议ICLR 2025接收。这项研究提出了一种名为CR-CTC(Consistency-Regularized CTC)的新算法,在纯CTC(Connectionist Temporal Classification)模型上实现了语音识别性能的显著提升,甚至可以与Transducer和CTC/AED等更复杂的模型相媲美。

背景:CTC算法的局限与挑战

CTC作为一种简单且易于部署的语音识别算法,长期以来受到研究人员的青睐。然而,由于其性能通常落后于Transducer和CTC/AED等模型,这限制了CTC在实际应用中的广泛使用。新一代Kaldi团队正是瞄准了这一痛点,致力于突破CTC算法的性能瓶颈。

CR-CTC:一致性正则化助力纯CTC性能飞跃

由Kaldi之父、IEEE fellow、小米集团首席语音科学家Daniel Povey领衔的新一代Kaldi团队,通过对语音技术链路的重构,从神经网络声学编码器、损失函数、优化器和解码器等多个方面入手,最终提出了CR-CTC算法。

CR-CTC的核心思想是在训练过程中引入一致性正则化,通过对同一个输入语音信号生成两个不同的增强视图,并约束这两个视图的CTC概率分布的一致性,从而提高模型的泛化能力和鲁棒性。

CR-CTC算法的具体实现步骤如下:

  1. 生成增强视图: 对同一个输入Mel-spectrogram x,使用SpecAugment方法生成两个不同的增强视图x1和x2。SpecAugment包含time warping、frequency masking和time masking等技术。为了避免time warping导致的时间戳错位,在创建增强视图之前先应用time warping。
  2. 计算CTC概率分布: 将两个增强视图分别输入参数共享的encoder模型f,得到对应的两个CTC概率分布p1和p2。
  3. 引入一致性正则化损失: 除了计算两个CTC损失Lctc1和Lctc2之外,还引入一致性正则化损失Lcr来约束两个分布的一致性。Lcr通过最小化每一对分布p1和p2之间的双向KL散度来实现。
  4. 优化总体损失: 系统总体损失L为Lctc1 + Lctc2 + αLcr,其中α为控制正则的超参数,默认设置为0.2。

实验结果:SOTA性能,比肩复杂模型

为了验证CR-CTC算法的有效性,新一代Kaldi团队在多个主流的ASR数据集上进行了实验,包括LibriSpeech、Aishell-1、GigaSpeech等。实验结果表明,CR-CTC在这些数据集上均取得了新的SOTA(State-of-the-Art)结果,且无需依赖外部训练数据和外部语言模型。

例如,在LibriSpeech数据集上训练Zipformer-L模型,标准CTC的WER(Word Error Rate,词错误率)为2.5/5.72,CTC/AED的WER为2.09/4.59, Pruned Transducer的WER为2.00/4.38;而CR-CTC的WER为2.02/4.35,性能与Transducer模型相当。更令人惊喜的是,将CR-CTC与CTC/AED和Pruned Transducer联合训练后,WER可分别进一步降低到1.96/4.08和1.88/3.95。

算法本质:多角度解读CR-CTC的优势

论文从三个不同的角度来解释CR-CTC的本质行为:

  1. Self-distillation(自蒸馏): CR-CTC可以被视为一种自蒸馏方法,其中一个增强视图的输出分布作为另一个增强视图的目标分布,从而提高模型的泛化能力。
  2. Masked prediction(掩码预测): SpecAugment中的masking操作可以被视为一种掩码预测,模型需要根据未被掩盖的信息来预测被掩盖的信息,从而提高模型的鲁棒性。
  3. Peak suppression(峰值抑制): CR-CTC可以抑制CTC概率分布中的虚假峰值,从而提高模型的准确性。

开源项目:助力语音技术发展

目前,新一代Kaldi项目(https://github.com/k2-fsa)主要由四个子项目构成:核心算法库k2、通用语音数据处理工具包Lhotse、解决方案集合Icefall以及服务端引擎Sherpa,方便开发者轻松训练、部署自己的智能语音模型。CR-CTC的代码已经合并到Icefall框架中,供研究人员和开发者使用。

展望:语音识别技术的未来

小米新一代Kaldi团队的CR-CTC算法的成功,不仅为纯CTC模型的性能提升带来了新的希望,也为语音识别技术的发展注入了新的活力。随着CR-CTC等先进算法的不断涌现,我们有理由相信,未来的语音识别技术将更加准确、高效和智能,为人们的生活带来更多便利。

参考文献:

  • [1] Graves, A., et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. ICML. 2006.
  • [2] Graves, A. Sequence transduction with recurrent neural networks. ICML. 2012.
  • [3] Watanabe, S., et al. Hybrid CTC/attention architecture for end-to-end speech recognition. IEEE Journal of Selected Topics in Signal Processing. 2017.
  • [4] Park, D. S., et al. SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition. Interspeech. 2019.
  • [5] Srivastava, N., et al. Dropout: a simple way to prevent neural networks from overfitting. JMLR. 2014.
  • [6] Huang, G., et al. Deep networks with stochastic depth. ECCV. 2016.


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注