旧金山 – 人工智能领域再掀波澜。OpenAI 今日凌晨发布了一系列全新的音频模型,标志着语音智能体时代的正式开启。此次发布不仅带来了在准确性和可靠性方面超越现有解决方案的 SOTA 水平,更令人瞩目的是,开发者现在可以“指导” GPT-4o 的说话方式,从而为语音交互应用带来前所未有的定制化维度。
技术突破:更精准、更智能的音频模型
OpenAI 在音频模型领域持续发力,此次发布的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型,在单词错误率 (WER) 方面取得了显著改进,尤其是在处理口音、嘈杂环境和不同语速等复杂场景时,表现出更强的鲁棒性。这些进步得益于强化学习的创新以及使用多样化、高质量音频数据集进行的大量中期训练。
“这些新的语音-文本模型可以更好地捕捉语音的细微差别,减少误认,并提高转录可靠性,” OpenAI 在其官方博客中表示,“尤其是在涉及口音、嘈杂环境和不同语速的具有挑战性的场景中。”
具体而言,在 FLEURS 等既定基准测试中,OpenAI 的模型实现了更低的 WER,展现出强大的多语言性能。
API 开放:低成本赋能开发者
OpenAI 此次发布的音频模型及 API,旨在帮助开发者构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。值得一提的是,此次 API 的定价策略颇具诚意,与此前备受争议的“最贵大模型 API”o1-pro 形成鲜明对比。
- gpt-4o-mini-tts 的百万 token 文本输入价格为 $0.60,音频输出价格为 $12.00。
- gpt-4o-transcrib 文本输入价格为 $2.50,音频输入价格 $10.00,音频输出价格 $6.00。
- gpt-4o-mini-transcribe 的文本输入价格为 $1.25,音频输入价格 $5.00,音频输出价格 $3.00。
“API 价格低至每分钟 0.015 美元,” 机器之心在报道中指出,“今天的发布也受到了人们的欢迎。”
“指导”AI 说话:开启定制化新维度
此次发布最引人注目的亮点在于,开发者现在可以“指导”文本转语音模型以特定方式说话。例如,可以指示 AI “像富有同情心的客户服务人员一样说话”,从而为语音智能体开启新的定制化维度,实现各种定制应用程序。
OpenAI 还推出了一个可操纵性更好的新 gpt-4o-mini-tts 模型,开发者不仅可以指导模型说什么,还可以指导模型如何说,从而为大量用例提供更加定制化的体验。
应用前景:客户呼叫中心、会议记录转录等
这些新的音频模型及 API,特别适合客户呼叫中心、会议记录转录等用例。通过更精准的语音识别和更具表现力的语音合成,企业可以构建更高效、更人性化的语音交互系统。
未来展望:更多模态、更个性化体验
OpenAI 表示,未来将继续提升音频模型的智能性和准确性,并探索允许开发者使用自定义声音构建更加个性化体验的方法。包括视频等更多模态的能力也在研发过程当中。
结论:语音智能体时代加速到来
OpenAI 此次发布的音频模型及 API,不仅在技术上取得了显著进步,更重要的是,它降低了开发成本,并为开发者提供了前所未有的定制化能力。随着语音交互技术的不断发展,语音智能体将在各行各业发挥越来越重要的作用。
参考文献:
- OpenAI. (2024). Introducing our next-generation audio models. Retrieved from https://openai.com/index/introducing-our-next-generation-audio-models/
- 机器之心. (2024). 刚刚,OpenAI开启语音智能体时代,API价格低至每分钟0.015美元.
Views: 0