阿里巴巴通义实验室推出端到端语音翻译大模型Gummy,实现实时流式翻译
杭州,2024年10月24日 – 在2024年云栖大会上,阿里巴巴通义实验室正式发布了端到端语音翻译大模型Gummy。该模型能够实时流式生成语音识别和翻译结果,支持十余种语言的语音输入,并将其翻译成目标语言。Gummy模型通过端到端的方式,减少了翻译延迟,提高了翻译质量,在多个测试集上取得了SOTA(State of the Art)的结果。
Gummy的主要特点包括:
- 多语言支持: Gummy支持包括中文、英语、粤语、日语、韩语、法语、德语、俄语、意大利语、西班牙语等十余种语言的语音输入,并能实时翻译成目标语言。
- 端到端翻译: 与传统的级联系统不同,Gummy采用端到端的设计,直接将语音翻译成目标语言,无需依赖中间的文本阶段。
- 低延迟翻译: Gummy的翻译延迟被降低到0.5秒以内,比人类专家的同传延时还要快。
- 高质量翻译: 在多个业界公认的开源测试集上,Gummy取得了SOTA的翻译质量结果。
- 流式翻译: Gummy支持随说随翻,即边听边翻译,适合实时交流的场景。
Gummy模型的技术原理基于深度学习技术,尤其是深度神经网络,学习语音到文本的复杂映射关系。模型内部采用特殊的“wait & predict”机制,自动判断翻译时机,优化翻译质量和延迟。
Gummy的应用场景非常广泛,包括:
- 实时语音翻译: Gummy模型能实时翻译会议中的发言,为国际会议、多语言谈判等提供同声传译服务。
- 教育和培训: 在教育领域,Gummy可以辅助语言学习,提供多语言教学内容的实时翻译,帮助学生和教师跨越语言障碍。
- 旅游和导航: 为旅行者提供实时语音翻译,帮助他们与不同语言的当地人交流,或在导航时提供多语言指引。
- 客户服务: 在客户服务领域,Gummy可以作为多语言客服助手,提供快速准确的语言支持,提升客户满意度。
- 医疗咨询: 在医疗领域,Gummy可以提供多语言的医疗咨询翻译服务,帮助医生和患者之间的沟通。
目前,Gummy部分功能已上线通义APP,用户可下载体验。Gummy的推出标志着阿里巴巴在语音翻译领域取得了重大突破,将为跨语言交流和沟通带来新的变革。
关于通义实验室
通义实验室是阿里巴巴集团旗下的全球领先人工智能研究机构,致力于推动人工智能基础理论和技术创新,并将其应用于各行各业,为社会创造价值。通义实验室在自然语言处理、计算机视觉、机器学习等领域取得了多项突破性成果,并发布了一系列领先的AI产品和服务。
Views: 0