AssemblyAI推出多语种语音识别模型 Universal-1

AssemblyAI 推出多语种语音识别模型 Universal-1，准确率和效率双提升

北京时间2023年10月26日 – AI 语音初创公司 AssemblyAI 近日发布了一款名为 Universal-1 的多语种语音识别和转录模型，该模型经过超过 1250 万小时的多语种音频数据训练，支持英语、西班牙语、法语和德语等语言。Universal-1 在多种环境下都能提供高准确率的语音转文字服务，包括嘈杂背景、不同口音和自然对话等，还具备快速响应时间和改进的时间戳准确性。

Universal-1 的主要特点:

多语种支持: Universal-1 能够处理多种语言，并针对这些语言进行了优化，以提高语音识别的准确性。
高准确率: 在不同条件下，Universal-1 都能保持出色的语音到文本的转换准确率，并显著降低了幻觉率，即减少了模型在没有声音输入的情况下错误生成文本的情况。
快速响应: Universal-1 设计了高效的并行推理能力，能够快速处理长音频文件，提供快速的响应时间。
精确的时间戳估计: 模型能够提供精确到单词级别的时间戳，这对于音频和视频编辑、会议记录等应用至关重要。
用户偏好: 在用户偏好测试中，用户 71% 的时间更倾向于 Universal-1 的输出，表明其在实际使用中更能满足用户的需求。

Universal-1 的性能对比:

在英语语音转文字准确性方面，Universal-1 在 11 个数据集中的 5 个数据集中实现了最低的词错误率（WER），与 OpenAI 的Whisper Large-v3、NVIDIA 的 Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon 和 Google Latest-long 等模型相比。

在非英语语音转文字准确性方面，Universal-1 在西班牙语、法语和德语的测试中，在 15 个数据集中的 5 个上 WER 更低，显示了其在这些语言上的竞争力。

在时间戳准确性方面，Universal-1 将预测时间戳在 100 毫秒内的单词比例提高了 25.5%，从 67.2% 提升到 84.3%。

在推理效率方面，Universal-1 在没有并行化的情况下比更快的 whisper 后端快 3 倍，且在 64 个并行化推理时，仅需 21 秒即可转录 1 小时的音频。

Universal-1 的应用:

Universal-1 的推出将为语音识别和转录领域带来新的突破，它可以应用于多种场景，例如：

自动字幕生成: 为视频和音频内容自动生成字幕，方便用户理解内容。
会议记录: 自动记录会议内容，提高会议效率。
语音搜索: 通过语音搜索互联网信息，提高搜索效率。
语音助手: 为用户提供更准确、更自然的语音交互体验。

总结:

Universal-1 是 AssemblyAI 推出的一款强大的多语种语音识别和转录模型，它在准确率、效率和用户体验方面都取得了显著的进步。随着人工智能技术的不断发展，Universal-1 有望在语音识别领域发挥更大的作用，为用户带来更便捷、更智能的体验。

【source】https://ai-bot.cn/universal-1/

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

AssemblyAI推出多语种语音识别模型 Universal-1

作者智能小编

AssemblyAI 推出多语种语音识别模型 Universal-1，准确率和效率双提升

相关文章

理想同学App测评：AI应用视觉惊艳，其余平平

百万年薪难觅AI将才，人才都去哪了？

Squid Game Season 2 Lands Netflix Bets Big on Global Phenomenon

发表回复取消回复

为您推荐

理想同学App测评：AI应用视觉惊艳，其余平平

百万年薪难觅AI将才，人才都去哪了？

Squid Game Season 2 Lands Netflix Bets Big on Global Phenomenon

《鱿鱼游戏2》上线，Netflix重金豪赌再掀狂潮？

作者智能小编

AssemblyAI 推出多语种语音识别模型 Universal-1，准确率和效率双提升

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复