Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

90年代的黄河路
0

旧金山 – 人工智能领域再掀波澜。OpenAI 今日凌晨发布了一系列全新的音频模型,标志着语音智能体时代的正式开启。此次发布不仅带来了在准确性和可靠性方面超越现有解决方案的 SOTA 水平,更令人瞩目的是,开发者现在可以“指导” GPT-4o 的说话方式,从而为语音交互应用带来前所未有的定制化维度。

技术突破:更精准、更智能的音频模型

OpenAI 在音频模型领域持续发力,此次发布的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型,在单词错误率 (WER) 方面取得了显著改进,尤其是在处理口音、嘈杂环境和不同语速等复杂场景时,表现出更强的鲁棒性。这些进步得益于强化学习的创新以及使用多样化、高质量音频数据集进行的大量中期训练。

“这些新的语音-文本模型可以更好地捕捉语音的细微差别,减少误认,并提高转录可靠性,” OpenAI 在其官方博客中表示,“尤其是在涉及口音、嘈杂环境和不同语速的具有挑战性的场景中。”

具体而言,在 FLEURS 等既定基准测试中,OpenAI 的模型实现了更低的 WER,展现出强大的多语言性能。

API 开放:低成本赋能开发者

OpenAI 此次发布的音频模型及 API,旨在帮助开发者构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。值得一提的是,此次 API 的定价策略颇具诚意,与此前备受争议的“最贵大模型 API”o1-pro 形成鲜明对比。

  • gpt-4o-mini-tts 的百万 token 文本输入价格为 $0.60,音频输出价格为 $12.00。
  • gpt-4o-transcrib 文本输入价格为 $2.50,音频输入价格 $10.00,音频输出价格 $6.00。
  • gpt-4o-mini-transcribe 的文本输入价格为 $1.25,音频输入价格 $5.00,音频输出价格 $3.00。

“API 价格低至每分钟 0.015 美元,” 机器之心在报道中指出,“今天的发布也受到了人们的欢迎。”

“指导”AI 说话:开启定制化新维度

此次发布最引人注目的亮点在于,开发者现在可以“指导”文本转语音模型以特定方式说话。例如,可以指示 AI “像富有同情心的客户服务人员一样说话”,从而为语音智能体开启新的定制化维度,实现各种定制应用程序。

OpenAI 还推出了一个可操纵性更好的新 gpt-4o-mini-tts 模型,开发者不仅可以指导模型说什么,还可以指导模型如何说,从而为大量用例提供更加定制化的体验。

应用前景:客户呼叫中心、会议记录转录等

这些新的音频模型及 API,特别适合客户呼叫中心、会议记录转录等用例。通过更精准的语音识别和更具表现力的语音合成,企业可以构建更高效、更人性化的语音交互系统。

未来展望:更多模态、更个性化体验

OpenAI 表示,未来将继续提升音频模型的智能性和准确性,并探索允许开发者使用自定义声音构建更加个性化体验的方法。包括视频等更多模态的能力也在研发过程当中。

结论:语音智能体时代加速到来

OpenAI 此次发布的音频模型及 API,不仅在技术上取得了显著进步,更重要的是,它降低了开发成本,并为开发者提供了前所未有的定制化能力。随着语音交互技术的不断发展,语音智能体将在各行各业发挥越来越重要的作用。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注