AssemblyAI 推出多语种语音识别模型 Universal-1,准确率和效率双提升
北京时间2023年10月26日 – AI 语音初创公司 AssemblyAI 近日发布了一款名为 Universal-1 的多语种语音识别和转录模型,该模型经过超过 1250 万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等语言。Universal-1 在多种环境下都能提供高准确率的语音转文字服务,包括嘈杂背景、不同口音和自然对话等,还具备快速响应时间和改进的时间戳准确性。
Universal-1 的主要特点:
- 多语种支持: Universal-1 能够处理多种语言,并针对这些语言进行了优化,以提高语音识别的准确性。
- 高准确率: 在不同条件下,Universal-1 都能保持出色的语音到文本的转换准确率,并显著降低了幻觉率,即减少了模型在没有声音输入的情况下错误生成文本的情况。
- 快速响应: Universal-1 设计了高效的并行推理能力,能够快速处理长音频文件,提供快速的响应时间。
- 精确的时间戳估计: 模型能够提供精确到单词级别的时间戳,这对于音频和视频编辑、会议记录等应用至关重要。
- 用户偏好: 在用户偏好测试中,用户 71% 的时间更倾向于 Universal-1 的输出,表明其在实际使用中更能满足用户的需求。
Universal-1 的性能对比:
在英语语音转文字准确性方面,Universal-1 在 11 个数据集中的 5 个数据集中实现了最低的词错误率(WER),与 OpenAI 的Whisper Large-v3、NVIDIA 的 Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon 和 Google Latest-long 等模型相比。
在非英语语音转文字准确性方面,Universal-1 在西班牙语、法语和德语的测试中,在 15 个数据集中的 5 个上 WER 更低,显示了其在这些语言上的竞争力。
在时间戳准确性方面,Universal-1 将预测时间戳在 100 毫秒内的单词比例提高了 25.5%,从 67.2% 提升到 84.3%。
在推理效率方面,Universal-1 在没有并行化的情况下比更快的 whisper 后端快 3 倍,且在 64 个并行化推理时,仅需 21 秒即可转录 1 小时的音频。
Universal-1 的应用:
Universal-1 的推出将为语音识别和转录领域带来新的突破,它可以应用于多种场景,例如:
- 自动字幕生成: 为视频和音频内容自动生成字幕,方便用户理解内容。
- 会议记录: 自动记录会议内容,提高会议效率。
- 语音搜索: 通过语音搜索互联网信息,提高搜索效率。
- 语音助手: 为用户提供更准确、更自然的语音交互体验。
总结:
Universal-1 是 AssemblyAI 推出的一款强大的多语种语音识别和转录模型,它在准确率、效率和用户体验方面都取得了显著的进步。随着人工智能技术的不断发展,Universal-1 有望在语音识别领域发挥更大的作用,为用户带来更便捷、更智能的体验。
【source】https://ai-bot.cn/universal-1/
Views: 1