OpenAI推出新版ChatGPT，增加语音和图像输入功能

作者智能小编

9 月 25, 2023 #ChatGPT, #IT资讯, #OpenAI

OpenAI 近日宣布推出新版 ChatGPT，增加了两项新功能：语音输入和图像输入。据 OpenAI 称，新功能将在未来两周内向 ChatGPT Plus 订阅用户推出，其他人也将很快能够使用这些功能。

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，ChatGPT 就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。OpenAI 表示，这样的交互方式更加自然和便捷，而且由于 LLM 的技术优势，答案的质量也会更高。

图像输入功能则类似于 Google Lens，用户可以拍摄自己感兴趣的事物，并上传到 ChatGPT 中。ChatGPT 会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。

ChatGPT 的优势在于它可以进行多轮对话，而不是一次性搜索。如果用户对答案不满意或想要更多信息，可以继续向 ChatGPT 提问，从而得到更准确和全面的答案。当然，图像搜索也有一些潜在问题。例如，在处理人物图片时，OpenAI 表示他们限制了 ChatGPT 对人物进行分析和直接评价的能力，既为了保证准确性，也为了保护隐私，这意味着上传一个人的照片就能知道他/她是谁还无法实现。

OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。他们正在与 Spotify 合作，将播客翻译成其他语言，同时保留播客主持人的声音。

这种模型也存在一些风险，比如可能被恶意利用来冒充公众人物或进行诈骗。因此，OpenAI 表示，这种模型不会被广泛开放，而是会受到严格的控制和限制。

IT 之家注意到，自从 2022 年初推出 ChatGPT 以来，OpenAI 一直在努力为其机器人增加更多功能和能力，同时避免造成新的问题出现。通过这次更新，该公司试图在这条界线上寻找平衡点，通过有意识地限制其新模型能做什么来实现这一目标。但是这种方法并不是长久之计，随着越来越多的人使用语音控制和图像搜索，以及 ChatGPT 逐渐成为一个真正的多模态、有用的虚拟助手，要保持安全和合理的边界会变得越来越困难。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT 之家所有文章均包含本声明。

【来源】https://www.ithome.com/0/721/590.htm

智能新闻

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

OpenAI推出新版ChatGPT，增加语音和图像输入功能

作者智能小编

相关文章

豆包1.5发布“视觉版”！大模型多模态推理时代来临

Gemma 3 QAT Cutting-Edge AI Now Runs on Consumer GPUs

Gemma 3 QAT：消费级GPU上的AI新突破

发表回复取消回复

为您推荐

豆包1.5发布“视觉版”！大模型多模态推理时代来临

Gemma 3 QAT Cutting-Edge AI Now Runs on Consumer GPUs

Gemma 3 QAT：消费级GPU上的AI新突破

强化学习未来：经验流而非算法？

作者智能小编

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复