Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

“`markdown

OpenAI发布三大音频模型:语音交互技术迎来“可引导”时代

旧金山(特约记者 张伟)—— 人工智能领域的领头羊OpenAI今日宣布推出新一代音频模型,包括语音转文本(Speech-to-Text, STT)和文本转语音(Text-to-Speech, TTS)功能,为开发者构建更强大的语音Agent提供了新的工具。此次发布的核心亮点在于模型的性能提升和对语音风格的“可引导性”控制,标志着语音交互技术迈向了一个新的高度。

三大音频模型齐亮相:性能与个性化并重

OpenAI此次发布的三款音频模型分别是:

  • gpt-4o-transcribe (语音转文本): 这是一款高性能的语音转文本模型,在多个基准测试中,其单词错误率(Word Error Rate, WER)显著低于现有的Whisper模型。这意味着它能够更准确地识别语音内容,尤其是在复杂的语音环境下。

  • gpt-4o-mini-transcribe (语音转文本): 作为gpt-4o-transcribe的精简版本,这款模型在速度和效率上进行了优化。虽然WER略高于完整版模型,但仍优于原有的Whisper模型,适用于资源有限但仍需高质量语音识别的应用场景。

  • gpt-4o-mini-tts (文本转语音): 这款文本转语音模型首次引入了“可引导性”(steerability)的概念。开发者不仅可以指定模型“说什么”,还可以控制模型“如何说”,从而实现对语音风格的精细控制。

技术突破:更准确、更灵活、更具情感

OpenAI此次发布的新模型在技术上实现了多项突破:

  • 多样化、高质量的音频数据集: gpt-4o-transcribe模型采用了多样化、高质量的音频数据集进行长时间的训练,使其能够更好地捕捉语音的细微差别,减少误识别,大幅提升转录的可靠性。这意味着模型能够更好地处理口音多样、环境嘈杂、语速变化等挑战场景,例如客户呼叫中心、会议记录转录等领域。

  • 知识蒸馏技术: gpt-4o-mini-transcribe模型基于GPT-4o-mini架构,通过知识蒸馏技术从大模型转移能力。知识蒸馏是一种模型压缩技术,可以将大型模型的知识迁移到小型模型,从而在保证性能的同时降低计算成本。

  • 强化学习(RL): 在语音转文本技术中融入强化学习,显著提升了转录精度并减少了“幻觉”现象。“幻觉”是指模型在没有真实依据的情况下生成内容。通过强化学习,模型可以学习到更准确的语音转录策略,从而减少错误。

  • “可引导性”: gpt-4o-mini-tts模型首次支持“可引导性”,允许开发者预设多种语音风格,如“平静”、“冲浪者”、“专业的”、“中世纪骑士”等。它还能根据指令调整语音风格,如“像富有同情心的客服Agent一样说话”。这种“可引导性”为开发者提供了更大的灵活性,可以根据不同的应用场景定制语音风格。

应用前景:语音交互的无限可能

OpenAI此次发布的新模型为语音交互技术的应用打开了新的大门。以下是一些潜在的应用场景:

  • 客户服务: gpt-4o-transcribe模型可以用于转录客户呼叫中心的对话,从而帮助企业分析客户需求,提高服务质量。gpt-4o-mini-tts模型可以用于创建更具个性化的语音客服Agent,提升客户满意度。

  • 会议记录: gpt-4o-transcribe模型可以用于自动转录会议记录,节省时间和人力成本。

  • 教育: gpt-4o-mini-tts模型可以用于创建更具吸引力的语音教材,提升学生的学习兴趣。

  • 娱乐: gpt-4o-mini-tts模型可以用于创建各种语音角色,例如游戏角色、虚拟助手等。

  • 无障碍: 语音转文本技术可以帮助听力障碍人士更好地理解语音内容。文本转语音技术可以帮助视力障碍人士获取信息。

价格与安全:兼顾经济性和可靠性

在定价方面,GPT-4o-transcribe与之前的Whisper模型价格相同,每分钟0.006美元,而GPT-4o-mini-transcribe则是前者的一半,每分钟0.003美元。gpt-4o-mini-tts的定价为每分钟0.015美元。这样的定价策略旨在让更多的开发者能够使用这些先进的音频模型。

在安全方面,OpenAI表示,gpt-4o-mini-tts将接受持续监控,以保证其输出与预设的合成风格保持一致。这是为了防止模型被用于生成不当内容,例如恶意语音信息。

OpenAI的语音交互技术路线图:两条路径并驾齐驱

OpenAI的演示人员介绍了两种构建语音Agent的技术路径:

  • 语音到语音模型: 这种方法采用端到端的直接处理方式。系统可直接接收用户语音输入并生成语音回复,无需中间转换步骤。这种方式处理速度更快,已在ChatGPT的高级语音模式和实时API服务中得到应用,非常适合对响应速度要求极高的场景。

  • 链式方法: 这种方法将整个处理流程分解为三个独立环节:首先使用语音转文本模型将用户语音转为文字,然后由大型语言模型(LLM)处理这些文本内容并生成回应文本,最后通过文本转语音模型将回应转为自然语音输出。这种方法的优势在于模块化设计,各组件可独立优化;处理结果更稳定,因为文本处理技术通常比直接音频处理更成熟;同时开发门槛更低,开发者可基于现有文本系统快速添加语音功能。

OpenAI此次发布的重点是链式方法,这表明OpenAI正在积极探索更灵活、更可靠的语音交互技术路线。

开发者工具与广播比赛:鼓励创新与参与

OpenAI还为这些语音交互系统提供了多项增强功能:

  • 支持语音流式处理: 实现连续音频输入和输出。

  • 内置噪音消除功能: 提升语音清晰度。

  • 语义语音活动检测: 能够识别用户何时完成发言。

  • 追踪UI工具: 方便开发者调试语音代理。

为了鼓励开发者使用这些新模型进行创新,OpenAI还举办了一个广播比赛。用户可以在http://OpenAI.fm制作音频,接着使用OpenAI.fm上的“分享”按钮生成链接,然后在X平台分享。最具创意的前三名将各获一台限量版Teenage Engineering OB-4。

人工智能的情感化趋势:从智商到情商

值得注意的是,今年人工智能的风向也在悄然发生变化,除了依旧强调智商,还多出一股趋势,强调情感。GPT-4.5、Grok 3的卖点是情商,写作更有创意,回应更个性化,而冷冰冰的机器人(智元机器人),也强调更拟人,主打一个情绪价值。

由于直接触及人类最本能的沟通方式,语音领域在这方面的发力则更加显著。最近在硅谷走红的Sesame AI能够实时感知用户情绪,并生成情感共鸣的回应,迅速俘获了一大批用户的心。图灵奖得主Yann Lecun最近也在强调,未来的AI需要拥有情感。

无论是OpenAI今天发布的全新语音模型、还是即将发布的Meta Llama 4都有意往原生语音对话靠拢,试图通过更自然的情感交互拉近与用户的距离,靠“人味”圈粉。

结论:语音交互的未来已来

OpenAI此次发布的三大音频模型标志着语音交互技术迈向了一个新的阶段。通过性能提升、技术创新和对“可引导性”的引入,OpenAI为开发者提供了更强大的工具,可以构建更准确、更灵活、更具情感的语音Agent。

随着人工智能技术的发展,语音交互将成为人机交互的重要方式。未来,我们可以期待看到更多基于语音的创新应用,例如更智能的虚拟助手、更自然的语音客服、更具吸引力的语音教材等。

然而,我们也需要关注语音交互技术可能带来的安全问题,例如恶意语音信息、深度伪造等。我们需要建立完善的安全机制,确保语音交互技术的健康发展。

OpenAI此次发布的新模型无疑为语音交互的未来带来了新的希望。我们期待看到更多开发者利用这些新模型进行创新,共同推动语音交互技术的发展,让人工智能更好地服务于人类。

参考文献:

  • APPSO. (2024). 刚刚,OpenAI 一口气发布三个新模型!还为此做了一个新网站. Retrieved from [APPSO网站链接]
  • OpenAI. (2024). OpenAI Announces New Audio Models. Retrieved from [OpenAI官方网站链接] (假设)
  • Teenage Engineering OB-4. Retrieved from [Teenage Engineering官方网站链接] (假设)
  • Sesame AI. Retrieved from [Sesame AI官方网站链接] (假设)

注: 以上参考文献链接为假设,请根据实际情况进行补充。
“`


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注