Kyutai Labs 推出 Hibiki：实时语音翻译新突破

摘要： Kyutai Labs近日开源了其最新的实时语音翻译模型Hibiki，该模型能够实现语音到语音（S2ST）和语音到文本（S2TT）的实时翻译，并在法语到英语的翻译任务中表现出色。Hibiki的推出，标志着实时语音翻译技术迈出了重要一步，为国际交流、在线教育、旅游出行等领域带来了新的可能性。

正文：

在人工智能领域，语音翻译技术一直备受关注。近日，Kyutai Labs推出了一款名为Hibiki的实时语音翻译模型，再次引发了业界对这一领域的热议。作为一款开源的解码器模型，Hibiki旨在实现同步语音翻译，可以将一种语言的语音实时翻译成另一种语言的语音或文本。

Hibiki的技术原理与优势

Hibiki的核心在于其多流语言模型架构。与传统的语音翻译模型不同，Hibiki能够同步处理源语音和目标语音，联合生成文本和音频标记。这种架构使得Hibiki能够实现语音到语音（S2ST）和语音到文本（S2TT）的翻译功能，极大地拓展了应用场景。

为了实现低延迟和高保真度的翻译效果，Hibiki采用了多种先进技术：

因果音频编解码器： Hibiki使用预训练的因果音频编解码器（如Mimi）将语音编码为低帧率的离散标记，支持实时流式处理。
弱监督学习与上下文对齐： Hibiki基于翻译单语音频的转录文本并重新合成目标语音，生成对齐的合成数据。通过现成文本翻译系统的困惑度，计算单词级对齐，确保目标语音的生成与源语音的上下文同步。
说话者相似性与分类器自由引导： Hibiki对训练数据进行说话者相似性分类标记，避免过滤数据的同时，在推理时优先选择高相似性样本。通过调整条件标签的权重，增强模型对说话者相似性的控制，进一步提升语音保真度。

这些技术的综合应用，使得Hibiki在法语到英语的翻译任务中表现出色，具有高翻译质量、说话者保真度和自然度。更重要的是，Hibiki支持批量翻译和实时设备端部署，展现了强大的实用潜力。

Hibiki的应用场景

Hibiki的实时语音翻译功能，使其在多个领域具有广泛的应用前景：

国际会议： 实时翻译不同语言的发言，帮助参会者即时理解内容。
在线教育： 将教师的授课语音实时翻译，方便学生无障碍学习。
旅游出行： 实时翻译导游讲解或与当地人交流，增强旅游体验。
新闻采访： 帮助记者快速翻译采访内容，提升报道效率。
客户服务： 实现多语言客服沟通，提升客户满意度。

开源与未来展望

Kyutai Labs选择开源Hibiki，无疑将加速其在各个领域的应用和发展。通过开源，更多的开发者可以参与到Hibiki的改进和优化中，共同推动实时语音翻译技术的进步。

Hibiki的项目地址：

GitHub仓库：https://github.com/kyutai-labs/hibiki
HuggingFace模型库：https://huggingface.co/collections/kyutai/hibiki
arXiv技术论文：https://arxiv.org/pdf/2502.03382

结论：

Kyutai Labs推出的Hibiki实时语音翻译模型，凭借其先进的技术架构和出色的翻译效果，为实时语音翻译技术带来了新的突破。随着Hibiki的开源和广泛应用，我们有理由相信，未来的国际交流将更加便捷和高效。

参考文献：

Kyutai Labs. (2024). Hibiki: A Real-Time Speech Translation Model. arXiv. https://arxiv.org/pdf/2502.03382
GitHub Repository: https://github.com/kyutai-labs/hibiki
HuggingFace Model Hub: https://huggingface.co/collections/kyutai/hibiki

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Kyutai Labs 推出 Hibiki：实时语音翻译新突破

作者智能小编

相关文章

Sports Brands Go Big Outsizing Luxury with Mega-Stores

TikTok劲敌？两天MVP估值5亿，资本狂涌！

运动品牌“巨无霸”店来袭，奢侈品都得让路？

发表回复取消回复

为您推荐