“`markdown
小红书开源 FireRedASR:工业级语音识别模型刷新 SOTA,歌词识别表现亮眼
北京 – 在人工智能领域,自动语音识别(ASR)技术一直是研究的热点。近日,小红书开源了其工业级自动语音识别模型家族 FireRedASR,在普通话 ASR 基准测试中达到了新的最佳水平(SOTA),并在歌词识别方面展现出卓越的性能。这一举动无疑为语音识别技术的发展注入了新的活力。
FireRedASR:两大版本,各有所长
FireRedASR 模型家族包含两个主要版本,旨在满足不同的应用需求:
- FireRedASR-LLM: 采用 Encoder-Adapter-LLM 框架,充分利用大型语言模型(LLM)的能力,实现了 SOTA 性能,并支持无缝端到端语音交互。在普通话基准测试中,其平均字符错误率(CER)仅为 3.05%,相较于之前的 SOTA 模型(3.33%)降低了 8.4%。
- FireRedASR-AED: 采用基于注意力的编码器-解码器(AED)架构,在高性能和计算效率之间取得了平衡。它可以作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中,其平均 CER 为 3.18%,优于拥有超过 12B 参数的 Seed-ASR。
技术解析:Encoder-Adapter-LLM 与 Attention-based Encoder-Decoder
FireRedASR-LLM 的核心在于其 Encoder-Adapter-LLM 框架。该框架包含三个关键组件:
- Conformer 基础编码器: 负责提取语音特征,生成连续的语音表示。
- 轻量级适配器: 将编码器的输出转换为与 LLM 语义空间匹配的表示。
- 预训练文本 LLM: 基于 Qwen2-7B-Instruct 初始化,用于生成最终的文本输出。
在训练过程中,编码器和适配器是可训练的,而 LLM 的大部分参数保持固定,仅通过 Low-Rank Adaptation(LoRA)进行微调。这种训练策略确保了编码器和适配器能够有效地将语音特征映射到 LLM 的语义空间,同时保留 LLM 的预训练能力。
FireRedASR-AED 则基于经典的注意力机制编码器-解码器(AED)架构。该架构由 Conformer 编码器和 Transformer 解码器组成,能够有效地处理语音特征,并进行序列转换。
应用场景:从智能助手到歌词识别
FireRedASR 的高精度和高效性使其在多个场景中具有广泛的应用前景:
- 智能语音助手: FireRedASR 可以用于开发智能语音助手,提供准确的语音指令理解和流畅的交互体验。
- 视频和直播: 在短视频和直播领域,FireRedASR 能够实时生成字幕,帮助观众更好地理解内容。
- 歌词识别: FireRedASR 在歌词识别场景中表现尤为突出,能够应用于音乐平台和卡拉OK等场景。
- 语音输入: FireRedASR 可以用于语音输入场景,如语音打字、语音笔记等,显著提升用户的输入效率。
开源与社区:推动语音识别技术发展
小红书选择开源 FireRedASR 的模型和推理代码,旨在推动语音识别技术的社区驱动改进和学术研究。通过开放源代码,研究人员和开发者可以更深入地了解 FireRedASR 的技术原理,并在此基础上进行创新和改进。
项目地址:
- Github 仓库: https://github.com/FireRedTeam/FireRedASR
- HuggingFace 模型库: https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- arXiv 技术论文: https://arxiv.org/pdf/2501.14350 (请注意,链接中的年份 2501 可能是笔误,请以实际情况为准)
结论:
FireRedASR 的开源标志着小红书在人工智能领域的又一次重要贡献。凭借其卓越的性能、多场景适配能力和开源精神,FireRedASR 有望在语音识别领域掀起新的浪潮,并推动相关技术的发展和应用。未来,我们期待看到更多基于 FireRedASR 的创新应用,为人们的生活带来更多便利。
参考文献:
- FireRedASR Github 仓库: https://github.com/FireRedTeam/FireRedASR
- FireRedASR HuggingFace 模型库: https://huggingface.co/FireRedTeam/FireRedASR-AED-L
- FireRedASR arXiv 技术论文: https://arxiv.org/pdf/2501.14350 (请注意,链接中的年份 2501 可能是笔误,请以实际情况为准)
- AI工具集 相关报道: [此处应插入AI工具集相关报道的链接,如果存在的话]
“`
Views: 0