Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

在上海浦东滨江公园观赏外滩建筑群-20240824在上海浦东滨江公园观赏外滩建筑群-20240824
0

摘要: Kyutai Labs近日开源了其最新的实时语音翻译模型Hibiki,该模型能够实现语音到语音(S2ST)和语音到文本(S2TT)的实时翻译,并在法语到英语的翻译任务中表现出色。Hibiki的推出,标志着实时语音翻译技术迈出了重要一步,为国际交流、在线教育、旅游出行等领域带来了新的可能性。

正文:

在人工智能领域,语音翻译技术一直备受关注。近日,Kyutai Labs推出了一款名为Hibiki的实时语音翻译模型,再次引发了业界对这一领域的热议。作为一款开源的解码器模型,Hibiki旨在实现同步语音翻译,可以将一种语言的语音实时翻译成另一种语言的语音或文本。

Hibiki的技术原理与优势

Hibiki的核心在于其多流语言模型架构。与传统的语音翻译模型不同,Hibiki能够同步处理源语音和目标语音,联合生成文本和音频标记。这种架构使得Hibiki能够实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能,极大地拓展了应用场景。

为了实现低延迟和高保真度的翻译效果,Hibiki采用了多种先进技术:

  • 因果音频编解码器: Hibiki使用预训练的因果音频编解码器(如Mimi)将语音编码为低帧率的离散标记,支持实时流式处理。
  • 弱监督学习与上下文对齐: Hibiki基于翻译单语音频的转录文本并重新合成目标语音,生成对齐的合成数据。通过现成文本翻译系统的困惑度,计算单词级对齐,确保目标语音的生成与源语音的上下文同步。
  • 说话者相似性与分类器自由引导: Hibiki对训练数据进行说话者相似性分类标记,避免过滤数据的同时,在推理时优先选择高相似性样本。通过调整条件标签的权重,增强模型对说话者相似性的控制,进一步提升语音保真度。

这些技术的综合应用,使得Hibiki在法语到英语的翻译任务中表现出色,具有高翻译质量、说话者保真度和自然度。更重要的是,Hibiki支持批量翻译和实时设备端部署,展现了强大的实用潜力。

Hibiki的应用场景

Hibiki的实时语音翻译功能,使其在多个领域具有广泛的应用前景:

  • 国际会议: 实时翻译不同语言的发言,帮助参会者即时理解内容。
  • 在线教育: 将教师的授课语音实时翻译,方便学生无障碍学习。
  • 旅游出行: 实时翻译导游讲解或与当地人交流,增强旅游体验。
  • 新闻采访: 帮助记者快速翻译采访内容,提升报道效率。
  • 客户服务: 实现多语言客服沟通,提升客户满意度。

开源与未来展望

Kyutai Labs选择开源Hibiki,无疑将加速其在各个领域的应用和发展。通过开源,更多的开发者可以参与到Hibiki的改进和优化中,共同推动实时语音翻译技术的进步。

Hibiki的项目地址:

结论:

Kyutai Labs推出的Hibiki实时语音翻译模型,凭借其先进的技术架构和出色的翻译效果,为实时语音翻译技术带来了新的突破。随着Hibiki的开源和广泛应用,我们有理由相信,未来的国际交流将更加便捷和高效。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注