摩尔线程发布业界首个音频理解大模型MooER,助力AI语音技术发展
北京,2024年8月28日 – 近日,国内领先的GPU芯片厂商摩尔线程宣布推出业界首个基于国产全功能GPU训练的开源音频理解大模型MooER。该模型不仅能进行中文和英文的语音识别,还具备中译英的语音翻译能力,在Covost2中译英测试集中取得了接近工业级效果的25.2 BLEU分数。摩尔线程AI团队已开源推理代码和5000小时训练模型,并计划开源训练代码及8万小时训练模型,推动AI语音技术发展。
MooER的诞生标志着国产GPU在AI语音领域取得了重大突破。此前,由于缺乏自主可控的GPU芯片,国内AI语音技术发展受制于国外厂商,难以实现突破。摩尔线程的突破性进展,将为国产AI语音技术发展注入新的活力。
MooER的主要功能包括:
- 语音识别: 支持中文和英文的语音到文本的转换,可以用于实时语音转写、语音搜索等场景。
- 语音翻译: 具备将中文语音翻译成英文文本的能力,可应用于跨国会议、国际交流等场景。
- 高效率训练: 在摩尔线程的智算平台上,MooER可以快速完成大量数据的训练,提高模型的训练效率。
- 开源模型: 推理代码和部分训练模型已经开源,方便社区使用和进一步研究,促进AI语音技术发展。
MooER的技术原理基于深度学习架构,主要特点包括:
- 端到端训练: 模型从原始语音信号直接到文本输出,无需传统语音识别系统中的多个独立模块,简化了训练流程。
- Encoder-Adapter-Decoder结构:
- Encoder负责将输入的语音信号转换成一系列高级特征表示。
- Adapter用于调整和优化模型对特定任务的适应性,提高模型的泛化能力。
- Decoder(Large Language Model,LLM)基于这些特征生成最终的文本输出。
- LoRA技术: 使用LoRA(Low-Rank Adaptation)技术,一种参数高效的模型微调方法,通过只更新模型中一小部分参数来提高训练效率和效果。
- 伪标签训练: 在训练过程中使用伪标签技术,即用模型自身的预测作为训练数据,以增强模型的学习能力。
- 多语言支持: MooER支持中文和英文的语音识别,以及中译英的语音翻译,显示出其多语言处理能力。
MooER的应用场景十分广泛,包括:
- 实时语音转写: 在会议、讲座、课堂等场合,MooER可以实时将语音转换为文字,便于记录和回顾。
- 多语言翻译: 支持中英文之间的语音翻译,适用于跨国会议、国际交流等场景。
- 智能客服: 在客户服务领域,MooER可以通过语音识别和翻译功能,提高客服的响应效率和服务质量。
- 语音助手: 集成到智能手机、智能音箱等设备中,提供语音交互服务。
- 教育辅助: 在语言学习中,MooER可以帮助学习者进行发音校正和语言翻译。
MooER的开源发布将为AI语音技术发展带来积极影响:
- 推动国产AI语音技术发展: MooER的开源将促进国内AI语音技术研究和应用,加速国产AI语音技术的进步。
- 降低AI语音技术应用门槛: 开源模型和代码将降低AI语音技术应用门槛,让更多开发者和企业能够使用和开发AI语音应用。
- 促进AI语音技术生态建设:MooER的开源将吸引更多开发者和研究人员参与,共同构建AI语音技术生态,推动AI语音技术应用的普及。
摩尔线程的MooER大模型是国产GPU在AI语音领域取得的重大突破,标志着国产AI语音技术发展进入新的阶段。相信随着MooER的不断发展和应用,国产AI语音技术将取得更大的进步,为中国人工智能产业发展贡献力量。
项目地址:
- GitHub仓库:https://github.com/MooreThreads/MooER
- arXiv技术论文:https://arxiv.org/pdf/2408.05101
- 在线体验地址:https://mooer-speech.mthreads.com:10077/
【source】https://ai-bot.cn/mooer/
Views: 0