OpenAI语音智能体来袭：API价格冰点！

旧金山 – 人工智能领域再掀波澜。OpenAI 今日凌晨发布了一系列全新的音频模型，标志着语音智能体时代的正式开启。此次发布不仅带来了在准确性和可靠性方面超越现有解决方案的 SOTA 水平，更令人瞩目的是，开发者现在可以“指导” GPT-4o 的说话方式，从而为语音交互应用带来前所未有的定制化维度。

技术突破：更精准、更智能的音频模型

OpenAI 在音频模型领域持续发力，此次发布的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型，在单词错误率 (WER) 方面取得了显著改进，尤其是在处理口音、嘈杂环境和不同语速等复杂场景时，表现出更强的鲁棒性。这些进步得益于强化学习的创新以及使用多样化、高质量音频数据集进行的大量中期训练。

“这些新的语音-文本模型可以更好地捕捉语音的细微差别，减少误认，并提高转录可靠性，” OpenAI 在其官方博客中表示，“尤其是在涉及口音、嘈杂环境和不同语速的具有挑战性的场景中。”

具体而言，在 FLEURS 等既定基准测试中，OpenAI 的模型实现了更低的 WER，展现出强大的多语言性能。

API 开放：低成本赋能开发者

OpenAI 此次发布的音频模型及 API，旨在帮助开发者构建更准确、更强大的语音转文本系统以及富有表现力、个性十足的文本转语音声音。值得一提的是，此次 API 的定价策略颇具诚意，与此前备受争议的“最贵大模型 API”o1-pro 形成鲜明对比。

gpt-4o-mini-tts 的百万 token 文本输入价格为 $0.60，音频输出价格为 $12.00。
gpt-4o-transcrib 文本输入价格为 $2.50，音频输入价格 $10.00，音频输出价格 $6.00。
gpt-4o-mini-transcribe 的文本输入价格为 $1.25，音频输入价格 $5.00，音频输出价格 $3.00。

“API 价格低至每分钟 0.015 美元，” 机器之心在报道中指出，“今天的发布也受到了人们的欢迎。”

“指导”AI 说话：开启定制化新维度

此次发布最引人注目的亮点在于，开发者现在可以“指导”文本转语音模型以特定方式说话。例如，可以指示 AI “像富有同情心的客户服务人员一样说话”，从而为语音智能体开启新的定制化维度，实现各种定制应用程序。

OpenAI 还推出了一个可操纵性更好的新 gpt-4o-mini-tts 模型，开发者不仅可以指导模型说什么，还可以指导模型如何说，从而为大量用例提供更加定制化的体验。

应用前景：客户呼叫中心、会议记录转录等

这些新的音频模型及 API，特别适合客户呼叫中心、会议记录转录等用例。通过更精准的语音识别和更具表现力的语音合成，企业可以构建更高效、更人性化的语音交互系统。

未来展望：更多模态、更个性化体验

OpenAI 表示，未来将继续提升音频模型的智能性和准确性，并探索允许开发者使用自定义声音构建更加个性化体验的方法。包括视频等更多模态的能力也在研发过程当中。

结论：语音智能体时代加速到来

OpenAI 此次发布的音频模型及 API，不仅在技术上取得了显著进步，更重要的是，它降低了开发成本，并为开发者提供了前所未有的定制化能力。随着语音交互技术的不断发展，语音智能体将在各行各业发挥越来越重要的作用。

参考文献：

OpenAI. (2024). Introducing our next-generation audio models. Retrieved from https://openai.com/index/introducing-our-next-generation-audio-models/
机器之心. (2024). 刚刚，OpenAI开启语音智能体时代，API价格低至每分钟0.015美元.

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

OpenAI语音智能体来袭：API价格冰点！

作者智能小编

相关文章

豆包1.5发布“视觉版”！大模型多模态推理时代来临

Gemma 3 QAT Cutting-Edge AI Now Runs on Consumer GPUs

Gemma 3 QAT：消费级GPU上的AI新突破

发表回复取消回复

为您推荐

韩代总统唁电致教廷，哀悼教皇方济各逝世

韩POSCO联手现代，钢铁电池深化合作！