Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

“`markdown

小红书开源 FireRedASR:工业级语音识别模型刷新 SOTA,歌词识别表现亮眼

北京 – 在人工智能领域,自动语音识别(ASR)技术一直是研究的热点。近日,小红书开源了其工业级自动语音识别模型家族 FireRedASR,在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),并在歌词识别方面展现出卓越的性能。这一举动无疑为语音识别技术的发展注入了新的活力。

FireRedASR:两大版本,各有所长

FireRedASR 模型家族包含两个主要版本,旨在满足不同的应用需求:

  • FireRedASR-LLM: 采用 Encoder-Adapter-LLM 框架,充分利用大型语言模型(LLM)的能力,实现了 SOTA 性能,并支持无缝端到端语音交互。在普通话基准测试中,其平均字符错误率(CER)仅为 3.05%,相较于之前的 SOTA 模型(3.33%)降低了 8.4%。
  • FireRedASR-AED: 采用基于注意力的编码器-解码器(AED)架构,在高性能和计算效率之间取得了平衡。它可以作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中,其平均 CER 为 3.18%,优于拥有超过 12B 参数的 Seed-ASR。

技术解析:Encoder-Adapter-LLM 与 Attention-based Encoder-Decoder

FireRedASR-LLM 的核心在于其 Encoder-Adapter-LLM 框架。该框架包含三个关键组件:

  1. Conformer 基础编码器: 负责提取语音特征,生成连续的语音表示。
  2. 轻量级适配器: 将编码器的输出转换为与 LLM 语义空间匹配的表示。
  3. 预训练文本 LLM: 基于 Qwen2-7B-Instruct 初始化,用于生成最终的文本输出。

在训练过程中,编码器和适配器是可训练的,而 LLM 的大部分参数保持固定,仅通过 Low-Rank Adaptation(LoRA)进行微调。这种训练策略确保了编码器和适配器能够有效地将语音特征映射到 LLM 的语义空间,同时保留 LLM 的预训练能力。

FireRedASR-AED 则基于经典的注意力机制编码器-解码器(AED)架构。该架构由 Conformer 编码器和 Transformer 解码器组成,能够有效地处理语音特征,并进行序列转换。

应用场景:从智能助手到歌词识别

FireRedASR 的高精度和高效性使其在多个场景中具有广泛的应用前景:

  • 智能语音助手: FireRedASR 可以用于开发智能语音助手,提供准确的语音指令理解和流畅的交互体验。
  • 视频和直播: 在短视频和直播领域,FireRedASR 能够实时生成字幕,帮助观众更好地理解内容。
  • 歌词识别: FireRedASR 在歌词识别场景中表现尤为突出,能够应用于音乐平台和卡拉OK等场景。
  • 语音输入: FireRedASR 可以用于语音输入场景,如语音打字、语音笔记等,显著提升用户的输入效率。

开源与社区:推动语音识别技术发展

小红书选择开源 FireRedASR 的模型和推理代码,旨在推动语音识别技术的社区驱动改进和学术研究。通过开放源代码,研究人员和开发者可以更深入地了解 FireRedASR 的技术原理,并在此基础上进行创新和改进。

项目地址:

结论:

FireRedASR 的开源标志着小红书在人工智能领域的又一次重要贡献。凭借其卓越的性能、多场景适配能力和开源精神,FireRedASR 有望在语音识别领域掀起新的浪潮,并推动相关技术的发展和应用。未来,我们期待看到更多基于 FireRedASR 的创新应用,为人们的生活带来更多便利。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注