Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

阿里巴巴通义实验室推出端到端语音翻译大模型Gummy,实现实时流式翻译

杭州,2024年10月24日 – 在2024年云栖大会上,阿里巴巴通义实验室正式发布了端到端语音翻译大模型Gummy。该模型能够实时流式生成语音识别和翻译结果,支持十余种语言的语音输入,并将其翻译成目标语言。Gummy模型通过端到端的方式,减少了翻译延迟,提高了翻译质量,在多个测试集上取得了SOTA(State of the Art)的结果。

Gummy的主要特点包括:

  • 多语言支持: Gummy支持包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入,并能实时翻译成目标语言。
  • 端到端翻译: 与传统的级联系统不同,Gummy采用端到端的设计,直接将语音翻译成目标语言,无需依赖中间的文本阶段。
  • 低延迟翻译: Gummy的翻译延迟被降低到0.5秒以内,比人类专家的同传延时还要快。
  • 高质量翻译: 在多个业界公认的开源测试集上,Gummy取得了SOTA的翻译质量结果。
  • 流式翻译: Gummy支持随说随翻,即边听边翻译,适合实时交流的场景。

Gummy模型的技术原理基于深度学习技术,尤其是深度神经网络,学习语音到文本的复杂映射关系。模型内部采用特殊的“wait & predict”机制,自动判断翻译时机,优化翻译质量和延迟。

Gummy的应用场景非常广泛,包括:

  • 实时语音翻译: Gummy模型能实时翻译会议中的发言,为国际会议、多语言谈判等提供同声传译服务。
  • 教育和培训: 在教育领域,Gummy可以辅助语言学习,提供多语言教学内容的实时翻译,帮助学生和教师跨越语言障碍。
  • 旅游和导航: 为旅行者提供实时语音翻译,帮助他们与不同语言的当地人交流,或在导航时提供多语言指引。
  • 客户服务: 在客户服务领域,Gummy可以作为多语言客服助手,提供快速准确的语言支持,提升客户满意度。
  • 医疗咨询: 在医疗领域,Gummy可以提供多语言的医疗咨询翻译服务,帮助医生和患者之间的沟通。

目前,Gummy部分功能已上线通义APP,用户可下载体验。Gummy的推出标志着阿里巴巴在语音翻译领域取得了重大突破,将为跨语言交流和沟通带来新的变革。

关于通义实验室

通义实验室是阿里巴巴集团旗下的全球领先人工智能研究机构,致力于推动人工智能基础理论和技术创新,并将其应用于各行各业,为社会创造价值。通义实验室在自然语言处理、计算机视觉、机器学习等领域取得了多项突破性成果,并发布了一系列领先的AI产品和服务。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注