Gemini Live实时AI视频升级，交互新纪元！

摘要： 谷歌Gemini Live迎来重大更新，正式推出实时AI视频交互功能，集成Project Astra承诺，用户现可通过屏幕共享和实时摄像头画面解读，与AI进行即时互动。此举不仅兑现了谷歌在MWC上的承诺，更标志着谷歌在人工智能助手领域向OpenAI发起强有力挑战。与此同时，苹果Siri的AI升级却遭遇延期，凸显了AI竞赛的激烈与不确定性。

正文：

在人工智能领域，一场关于实时交互能力的竞赛正愈演愈烈。谷歌近日宣布，其Gemini Live正式上线全新功能，允许用户通过实时视频与AI进行互动，进一步提升了AI助手在日常生活中的实用性。这一举措被视为谷歌对标OpenAI GPT-4o的重要一步，也预示着人工智能助手正朝着更加智能化、个性化的方向发展。

一、Gemini Live新功能：实时交互体验再升级

谷歌发言人Alex Joseph向The Verge证实，Gemini Live已开始向用户推送新的AI功能，其中包括屏幕共享和实时视频解读。用户现在可以通过点击“Share screen with Live”按钮，将手机屏幕信息分享给Gemini，AI能够读取屏幕内容并回答相关问题。此外，Gemini Live还新增了实时视频功能，用户可以通过手机摄像头捕捉画面，让AI实时解读画面内容并提供即时反馈。

这一功能的推出，标志着Gemini Live在实时人工智能交互方面取得了显著进展。用户不再局限于传统的语音或文本输入，而是可以通过更加直观、便捷的方式与AI进行互动。例如，用户可以向Gemini展示手机屏幕上的购物清单，询问哪些商品更健康；或者通过摄像头拍摄眼前的风景，让Gemini介绍景点的历史文化背景。

Reddit用户率先体验了屏幕共享功能，并分享了一段演示视频。视频显示，Gemini能够根据用户共享的屏幕信息，准确回答今天的日期、温度等问题。这一功能的实用性不言而喻，用户可以在需要帮助时，随时随地向Gemini寻求支持。

实时视频功能则更具想象空间。在谷歌官方发布的一段演示视频中，用户向Gemini求助，询问哪种颜色的颜料更适合上釉的陶器。用户打开手机摄像头，对准釉料进行实时拍摄，Gemini几乎毫无延迟地给出了建议。更令人印象深刻的是，用户可以继续追问，Gemini依然能够对答如流，展现了强大的理解和推理能力。

二、Project Astra：谷歌实时AI交互的核心引擎

Gemini Live的实时交互能力，离不开谷歌Project Astra项目的支持。Project Astra是谷歌于去年发布的AI智能体项目，旨在通过摄像头实现用户与大模型之间的实时视觉与语音交互。该项目被视为谷歌对标OpenAI GPT-4o的重要研究成果。

Project Astra具有以下三个显著特点：

实时对话： Project Astra支持实时音频和视频对话，延迟极低，并且掌握多种语言，能够满足不同用户的需求。
记忆： Project Astra能够记住过去对话的关键细节，以及当前会话中最多10分钟的内容，从而更好地理解用户的意图，并提供更精准的回答。
工具调用： Project Astra可以调用谷歌搜索、地图等工具，为用户提供更全面的信息和服务。例如，当用户询问某个餐厅的评价时，Project Astra可以调用谷歌搜索，抓取相关评论并呈现给用户。

此外，Project Astra还支持跨设备工作，用户可以在安卓手机或原型眼镜上使用该功能。这意味着，用户可以在不同场景下，随时随地与AI进行互动。

三、OpenAI的先行优势与谷歌的追赶

事实上，视频对话功能并非新鲜概念。OpenAI早在去年12月底就在ChatGPT的移动端应用程序App中上线了高级语音模式Advanced Voice，提供了视频和共享屏幕功能。不过，该功能目前仅对Plus用户和Pro用户开放。

谷歌此时推出类似功能，无疑是在努力保持其在人工智能助手领域的领先地位。虽然OpenAI在视频对话功能方面具有一定的先发优势，但谷歌凭借其强大的技术实力和庞大的用户基础，有望在这一领域迎头赶上。

四、苹果Siri的困境：AI竞赛中的掉队风险

与谷歌和OpenAI的积极进取形成鲜明对比的是，苹果Siri的AI升级却遭遇了延期。彭博社报道称，Siri团队内部会议记录显示，苹果期待的Apple Intelligence仍遥遥无期。负责该部门的高级主管Robby Walker坦言，此次延迟是一个“糟糕的”情况，并对那些可能因苹果的决定和Siri仍然不佳的声誉而感到疲惫或沮丧的员工表示同情。

Robby Walker还表示，承诺过的Siri功能不一定会在今年出现在iOS 19中：“这是该公司目前的目标，但并不意味着我们会在那时推出。”

近几周，苹果一直无法摆脱有关其在Siri和人工智能方面进展缓慢的负面新闻。去年6月承诺过的高级智能功能至今无法兑现，除了更漂亮的Siri动画外，几乎没有任何成果。

苹果尚未公开评论此事，但此前该公司曾表示，高级Siri功能“比预期耗时更长”。Robby Walker告诉员工，公司的软件主管、人工智能主管等高管正在为这一困境承担“个人责任”，然而这一困境引发了广泛的、激烈的批评。

Siri的现代化和苹果在人工智能竞赛中的追赶，都离不开这些高级智能功能。然而，目前尚不清楚这些功能何时能够到来。从最近这次全体会议的讨论内容来看，苹果本身似乎也无法给出明确的时间表。

Siri的困境凸显了人工智能竞赛的激烈与不确定性。即使是像苹果这样的科技巨头，也可能在AI领域遭遇挑战。

五、实时AI视频交互的未来展望

Gemini Live的实时AI视频交互功能，代表了人工智能助手发展的一个重要方向。随着技术的不断进步，我们可以期待以下几个方面的未来发展：

更强的理解能力： 未来的AI助手将能够更深入地理解用户的意图，并提供更精准、个性化的回答。例如，AI助手可以根据用户的面部表情和语音语调，判断用户的情绪状态，并提供相应的安慰或建议。
更丰富的应用场景： 实时AI视频交互功能将在更多领域得到应用。例如，在教育领域，学生可以通过摄像头向AI助手提问，获得实时的辅导和解答；在医疗领域，医生可以通过摄像头远程诊断患者的病情，并提供治疗建议。
更自然的交互方式： 未来的AI助手将能够以更自然、更流畅的方式与用户进行交互。例如，AI助手可以像真人一样，与用户进行眼神交流，并使用更生动的语言表达。

六、结论：AI竞赛进入新阶段，用户体验至关重要

谷歌Gemini Live的重磅升级，标志着人工智能竞赛进入了一个新的阶段。实时AI视频交互功能的推出，不仅提升了AI助手的实用性，也为用户带来了更便捷、更智能的体验。

在未来的竞争中，用户体验将成为关键因素。只有那些能够真正满足用户需求、提供优质服务的AI助手，才能赢得用户的青睐。

谷歌和OpenAI都在积极探索实时AI视频交互的潜力，而苹果Siri的困境则提醒我们，在AI领域，技术创新和用户体验同样重要。

随着技术的不断发展，我们有理由相信，未来的AI助手将变得更加智能化、个性化，并为我们的生活带来更多便利。

参考文献：

The Verge. (n.d.). Google Gemini Live video and screen sharing Astra features rolling out. Retrieved from https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out
The Verge. (n.d.). Apple’s Siri delayed AI features. Retrieved from https://www.theverge.com/news/629940/apple-siri-robby-walker-delayed-ai-features
机器之心. (n.d.). 刚刚，谷歌Gemini Live上新功能，能看懂手机屏幕、还能实时视频. Retrieved from 机器之心微信公众号.

致谢：

感谢机器之心对本次新闻事件的报道，为本文提供了重要的信息来源。同时，感谢The Verge等媒体的深度分析，帮助我们更好地理解了人工智能领域的最新动态。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Gemini Live实时AI视频升级，交互新纪元！

作者智能小编

相关文章

Sports Brands Go Big Outsizing Luxury with Mega-Stores

TikTok劲敌？两天MVP估值5亿，资本狂涌！

运动品牌“巨无霸”店来袭，奢侈品都得让路？

发表回复取消回复

为您推荐