“`markdown

小红书开源 FireRedASR：工业级语音识别模型刷新 SOTA，歌词识别表现亮眼

北京 – 在人工智能领域，自动语音识别（ASR）技术一直是研究的热点。近日，小红书开源了其工业级自动语音识别模型家族 FireRedASR，在普通话 ASR 基准测试中达到了新的最佳水平（SOTA），并在歌词识别方面展现出卓越的性能。这一举动无疑为语音识别技术的发展注入了新的活力。

FireRedASR：两大版本，各有所长

FireRedASR 模型家族包含两个主要版本，旨在满足不同的应用需求：

FireRedASR-LLM： 采用 Encoder-Adapter-LLM 框架，充分利用大型语言模型（LLM）的能力，实现了 SOTA 性能，并支持无缝端到端语音交互。在普通话基准测试中，其平均字符错误率（CER）仅为 3.05%，相较于之前的 SOTA 模型（3.33%）降低了 8.4%。
FireRedASR-AED： 采用基于注意力的编码器-解码器（AED）架构，在高性能和计算效率之间取得了平衡。它可以作为基于 LLM 的语音模型中的有效语音表示模块。在普通话基准测试中，其平均 CER 为 3.18%，优于拥有超过 12B 参数的 Seed-ASR。

技术解析：Encoder-Adapter-LLM 与 Attention-based Encoder-Decoder

FireRedASR-LLM 的核心在于其 Encoder-Adapter-LLM 框架。该框架包含三个关键组件：

Conformer 基础编码器： 负责提取语音特征，生成连续的语音表示。
轻量级适配器： 将编码器的输出转换为与 LLM 语义空间匹配的表示。
预训练文本 LLM： 基于 Qwen2-7B-Instruct 初始化，用于生成最终的文本输出。

在训练过程中，编码器和适配器是可训练的，而 LLM 的大部分参数保持固定，仅通过 Low-Rank Adaptation（LoRA）进行微调。这种训练策略确保了编码器和适配器能够有效地将语音特征映射到 LLM 的语义空间，同时保留 LLM 的预训练能力。

FireRedASR-AED 则基于经典的注意力机制编码器-解码器（AED）架构。该架构由 Conformer 编码器和 Transformer 解码器组成，能够有效地处理语音特征，并进行序列转换。

应用场景：从智能助手到歌词识别

FireRedASR 的高精度和高效性使其在多个场景中具有广泛的应用前景：

智能语音助手： FireRedASR 可以用于开发智能语音助手，提供准确的语音指令理解和流畅的交互体验。
视频和直播： 在短视频和直播领域，FireRedASR 能够实时生成字幕，帮助观众更好地理解内容。
歌词识别： FireRedASR 在歌词识别场景中表现尤为突出，能够应用于音乐平台和卡拉OK等场景。
语音输入： FireRedASR 可以用于语音输入场景，如语音打字、语音笔记等，显著提升用户的输入效率。

开源与社区：推动语音识别技术发展

小红书选择开源 FireRedASR 的模型和推理代码，旨在推动语音识别技术的社区驱动改进和学术研究。通过开放源代码，研究人员和开发者可以更深入地了解 FireRedASR 的技术原理，并在此基础上进行创新和改进。

项目地址：

Github 仓库： https://github.com/FireRedTeam/FireRedASR
HuggingFace 模型库： https://huggingface.co/FireRedTeam/FireRedASR-AED-L
arXiv 技术论文： https://arxiv.org/pdf/2501.14350 (请注意，链接中的年份 2501 可能是笔误，请以实际情况为准)

结论：

FireRedASR 的开源标志着小红书在人工智能领域的又一次重要贡献。凭借其卓越的性能、多场景适配能力和开源精神，FireRedASR 有望在语音识别领域掀起新的浪潮，并推动相关技术的发展和应用。未来，我们期待看到更多基于 FireRedASR 的创新应用，为人们的生活带来更多便利。

参考文献：

FireRedASR Github 仓库: https://github.com/FireRedTeam/FireRedASR
FireRedASR HuggingFace 模型库: https://huggingface.co/FireRedTeam/FireRedASR-AED-L
FireRedASR arXiv 技术论文: https://arxiv.org/pdf/2501.14350 (请注意，链接中的年份 2501 可能是笔误，请以实际情况为准)
AI工具集相关报道: [此处应插入AI工具集相关报道的链接，如果存在的话]
“`

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

小红书开源FireRedASR，语音识别新突破！

作者智能小编

小红书开源 FireRedASR：工业级语音识别模型刷新 SOTA，歌词识别表现亮眼

FireRedASR：两大版本，各有所长

技术解析：Encoder-Adapter-LLM 与 Attention-based Encoder-Decoder

应用场景：从智能助手到歌词识别

开源与社区：推动语音识别技术发展

项目地址：

结论：

相关文章

赫拉利：秩序渴求，AI控人的首要原因

Secure Spring AI MCP Server with OAuth2 Best Practices

Spring AI MCP服务器安全升级：OAuth2保驾护航

发表回复取消回复

为您推荐

赫拉利：秩序渴求，AI控人的首要原因

Secure Spring AI MCP Server with OAuth2 Best Practices

Spring AI MCP服务器安全升级：OAuth2保驾护航

告别文档灌输！RAG入门指南

作者智能小编

小红书开源 FireRedASR：工业级语音识别模型刷新 SOTA，歌词识别表现亮眼

FireRedASR：两大版本，各有所长

技术解析：Encoder-Adapter-LLM 与 Attention-based Encoder-Decoder

应用场景：从智能助手到歌词识别

开源与社区：推动语音识别技术发展

项目地址：

结论：

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复