摘要: 谷歌Gemini Live迎来重大更新,正式推出实时AI视频交互功能,集成Project Astra承诺,用户现可通过屏幕共享和实时摄像头画面解读,与AI进行即时互动。此举不仅兑现了谷歌在MWC上的承诺,更标志着谷歌在人工智能助手领域向OpenAI发起强有力挑战。与此同时,苹果Siri的AI升级却遭遇延期,凸显了AI竞赛的激烈与不确定性。
正文:
在人工智能领域,一场关于实时交互能力的竞赛正愈演愈烈。谷歌近日宣布,其Gemini Live正式上线全新功能,允许用户通过实时视频与AI进行互动,进一步提升了AI助手在日常生活中的实用性。这一举措被视为谷歌对标OpenAI GPT-4o的重要一步,也预示着人工智能助手正朝着更加智能化、个性化的方向发展。
一、Gemini Live新功能:实时交互体验再升级
谷歌发言人Alex Joseph向The Verge证实,Gemini Live已开始向用户推送新的AI功能,其中包括屏幕共享和实时视频解读。用户现在可以通过点击“Share screen with Live”按钮,将手机屏幕信息分享给Gemini,AI能够读取屏幕内容并回答相关问题。此外,Gemini Live还新增了实时视频功能,用户可以通过手机摄像头捕捉画面,让AI实时解读画面内容并提供即时反馈。
这一功能的推出,标志着Gemini Live在实时人工智能交互方面取得了显著进展。用户不再局限于传统的语音或文本输入,而是可以通过更加直观、便捷的方式与AI进行互动。例如,用户可以向Gemini展示手机屏幕上的购物清单,询问哪些商品更健康;或者通过摄像头拍摄眼前的风景,让Gemini介绍景点的历史文化背景。
Reddit用户率先体验了屏幕共享功能,并分享了一段演示视频。视频显示,Gemini能够根据用户共享的屏幕信息,准确回答今天的日期、温度等问题。这一功能的实用性不言而喻,用户可以在需要帮助时,随时随地向Gemini寻求支持。
实时视频功能则更具想象空间。在谷歌官方发布的一段演示视频中,用户向Gemini求助,询问哪种颜色的颜料更适合上釉的陶器。用户打开手机摄像头,对准釉料进行实时拍摄,Gemini几乎毫无延迟地给出了建议。更令人印象深刻的是,用户可以继续追问,Gemini依然能够对答如流,展现了强大的理解和推理能力。
二、Project Astra:谷歌实时AI交互的核心引擎
Gemini Live的实时交互能力,离不开谷歌Project Astra项目的支持。Project Astra是谷歌于去年发布的AI智能体项目,旨在通过摄像头实现用户与大模型之间的实时视觉与语音交互。该项目被视为谷歌对标OpenAI GPT-4o的重要研究成果。
Project Astra具有以下三个显著特点:
- 实时对话: Project Astra支持实时音频和视频对话,延迟极低,并且掌握多种语言,能够满足不同用户的需求。
- 记忆: Project Astra能够记住过去对话的关键细节,以及当前会话中最多10分钟的内容,从而更好地理解用户的意图,并提供更精准的回答。
- 工具调用: Project Astra可以调用谷歌搜索、地图等工具,为用户提供更全面的信息和服务。例如,当用户询问某个餐厅的评价时,Project Astra可以调用谷歌搜索,抓取相关评论并呈现给用户。
此外,Project Astra还支持跨设备工作,用户可以在安卓手机或原型眼镜上使用该功能。这意味着,用户可以在不同场景下,随时随地与AI进行互动。
三、OpenAI的先行优势与谷歌的追赶
事实上,视频对话功能并非新鲜概念。OpenAI早在去年12月底就在ChatGPT的移动端应用程序App中上线了高级语音模式Advanced Voice,提供了视频和共享屏幕功能。不过,该功能目前仅对Plus用户和Pro用户开放。
谷歌此时推出类似功能,无疑是在努力保持其在人工智能助手领域的领先地位。虽然OpenAI在视频对话功能方面具有一定的先发优势,但谷歌凭借其强大的技术实力和庞大的用户基础,有望在这一领域迎头赶上。
四、苹果Siri的困境:AI竞赛中的掉队风险
与谷歌和OpenAI的积极进取形成鲜明对比的是,苹果Siri的AI升级却遭遇了延期。彭博社报道称,Siri团队内部会议记录显示,苹果期待的Apple Intelligence仍遥遥无期。负责该部门的高级主管Robby Walker坦言,此次延迟是一个“糟糕的”情况,并对那些可能因苹果的决定和Siri仍然不佳的声誉而感到疲惫或沮丧的员工表示同情。
Robby Walker还表示,承诺过的Siri功能不一定会在今年出现在iOS 19中:“这是该公司目前的目标,但并不意味着我们会在那时推出。”
近几周,苹果一直无法摆脱有关其在Siri和人工智能方面进展缓慢的负面新闻。去年6月承诺过的高级智能功能至今无法兑现,除了更漂亮的Siri动画外,几乎没有任何成果。
苹果尚未公开评论此事,但此前该公司曾表示,高级Siri功能“比预期耗时更长”。Robby Walker告诉员工,公司的软件主管、人工智能主管等高管正在为这一困境承担“个人责任”,然而这一困境引发了广泛的、激烈的批评。
Siri的现代化和苹果在人工智能竞赛中的追赶,都离不开这些高级智能功能。然而,目前尚不清楚这些功能何时能够到来。从最近这次全体会议的讨论内容来看,苹果本身似乎也无法给出明确的时间表。
Siri的困境凸显了人工智能竞赛的激烈与不确定性。即使是像苹果这样的科技巨头,也可能在AI领域遭遇挑战。
五、实时AI视频交互的未来展望
Gemini Live的实时AI视频交互功能,代表了人工智能助手发展的一个重要方向。随着技术的不断进步,我们可以期待以下几个方面的未来发展:
- 更强的理解能力: 未来的AI助手将能够更深入地理解用户的意图,并提供更精准、个性化的回答。例如,AI助手可以根据用户的面部表情和语音语调,判断用户的情绪状态,并提供相应的安慰或建议。
- 更丰富的应用场景: 实时AI视频交互功能将在更多领域得到应用。例如,在教育领域,学生可以通过摄像头向AI助手提问,获得实时的辅导和解答;在医疗领域,医生可以通过摄像头远程诊断患者的病情,并提供治疗建议。
- 更自然的交互方式: 未来的AI助手将能够以更自然、更流畅的方式与用户进行交互。例如,AI助手可以像真人一样,与用户进行眼神交流,并使用更生动的语言表达。
六、结论:AI竞赛进入新阶段,用户体验至关重要
谷歌Gemini Live的重磅升级,标志着人工智能竞赛进入了一个新的阶段。实时AI视频交互功能的推出,不仅提升了AI助手的实用性,也为用户带来了更便捷、更智能的体验。
在未来的竞争中,用户体验将成为关键因素。只有那些能够真正满足用户需求、提供优质服务的AI助手,才能赢得用户的青睐。
谷歌和OpenAI都在积极探索实时AI视频交互的潜力,而苹果Siri的困境则提醒我们,在AI领域,技术创新和用户体验同样重要。
随着技术的不断发展,我们有理由相信,未来的AI助手将变得更加智能化、个性化,并为我们的生活带来更多便利。
参考文献:
- The Verge. (n.d.). Google Gemini Live video and screen sharing Astra features rolling out. Retrieved from https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out
- The Verge. (n.d.). Apple’s Siri delayed AI features. Retrieved from https://www.theverge.com/news/629940/apple-siri-robby-walker-delayed-ai-features
- 机器之心. (n.d.). 刚刚,谷歌Gemini Live上新功能,能看懂手机屏幕、还能实时视频. Retrieved from 机器之心微信公众号.
致谢:
感谢机器之心对本次新闻事件的报道,为本文提供了重要的信息来源。同时,感谢The Verge等媒体的深度分析,帮助我们更好地理解了人工智能领域的最新动态。
Views: 0