“`markdown
谷歌Gemini Live重磅更新:AI实时交互能力跃升,剑指GPT-4o,苹果Siri面临更大压力
摘要: 谷歌近日正式向Gemini Live推送了全新的AI功能,包括实时屏幕共享和视频理解,用户可以通过手机摄像头与AI进行实时互动,解决实际问题。这一举措标志着谷歌在实时人工智能交互领域取得了重大进展,进一步兑现了在MWC上关于Project Astra与Gemini Live集成的承诺。与此同时,苹果Siri的升级却遭遇延迟,使其在AI助手领域的竞争中面临更大的压力。
北京时间 [当前日期] – 在人工智能助手领域的竞争日趋白热化的当下,谷歌再次祭出重磅更新。继在移动世界大会(MWC)上展示Project Astra与Gemini Live的集成后,谷歌正式向Gemini Live用户推送了全新的AI功能,包括实时屏幕共享和视频理解。这意味着用户现在可以通过手机摄像头与Gemini Live进行实时互动,解决生活和工作中的实际问题。这一举措不仅兑现了谷歌此前的承诺,也标志着谷歌在实时人工智能交互领域取得了显著进展。
Gemini Live新功能:实时互动,赋能生活
此次Gemini Live更新的核心在于增强了AI的实时交互能力。具体而言,新功能主要包括以下两点:
-
实时屏幕共享: 用户可以通过一个名为“Share screen with Live”的新按钮,将手机屏幕共享给Gemini Live。AI可以根据共享的屏幕内容,回答用户的提问,提供相关信息。例如,Gemini可以识别屏幕上的日期、温度等信息,并根据用户需求提供进一步的解释或建议。
-
实时视频理解: 用户可以通过手机摄像头,将拍摄到的画面实时传输给Gemini Live。AI可以实时解读画面内容,并回答用户提出的问题。例如,用户可以拍摄陶器釉料,询问Gemini哪种颜色最适合,AI会根据画面内容给出专业的建议。
谷歌官方发布的一段演示视频生动地展示了实时视频理解功能的强大之处。视频中,用户向Gemini Live求助,询问哪种颜色的颜料最适合他们上釉的陶器。用户打开手机摄像头,对准物体进行实时拍摄,然后询问这些釉料中哪一种最适合?几乎是毫无延迟的 Gemini 给出了回答。一个问题回答完毕后,用户也可以继续追问,Gemini 都能对答如流。
这些新功能的推出,极大地拓展了Gemini Live的应用场景,使其不再仅仅是一个简单的语音助手,而成为了一个能够实时理解用户需求、提供个性化服务的智能伙伴。无论是解决生活中的琐事,还是处理工作中的难题,Gemini Live都能为用户提供及时有效的帮助。
Project Astra:实时交互的基石
此次Gemini Live新功能的推出,离不开谷歌在Project Astra项目上的持续投入。Project Astra是谷歌去年发布的AI智能体项目,旨在打造一个能够与用户进行实时视觉与语音交互的AI助手。该项目被视为谷歌对标OpenAI GPT-4o的重要战略举措。
Project Astra具有以下三个关键特点:
-
实时对话: Project Astra能够进行实时的音频和视频对话,延迟极低,并且掌握多种语言,能够满足不同用户的需求。
-
记忆: Project Astra能够记住过去对话的关键细节,以及当前会话中最多10分钟的内容,从而完善其回答,提供更加个性化的服务。
-
工具调用: Project Astra能够调用谷歌搜索、地图等工具,为用户提供更加全面、准确的答案。
此外,Project Astra还支持跨设备工作,用户可以在安卓手机或原型眼镜上使用该功能,实现随时随地的智能交互。
Project Astra的推出,为Gemini Live的实时交互能力奠定了坚实的基础。通过将Project Astra的技术集成到Gemini Live中,谷歌成功地打造了一个更加智能、更加便捷的AI助手。
竞争格局:谷歌剑指GPT-4o,苹果Siri面临挑战
谷歌此次推出Gemini Live新功能,无疑是对OpenAI GPT-4o的一次有力回应。GPT-4o同样具备强大的实时交互能力,能够理解用户的语音、图像和视频,并提供相应的服务。谷歌希望通过Gemini Live的升级,在实时人工智能助手领域与GPT-4o展开正面竞争。
值得注意的是,OpenAI早在去年12月底就在ChatGPT的移动端应用程序App中上线了视频和共享屏幕功能,通过高级语音模式Advanced Voice提供。不过,该功能目前仅面向Plus用户和Pro用户开放。
与此同时,苹果Siri的升级却遭遇了延迟。据彭博社报道,一份Siri团队内部会议的记录显示,苹果期待的Apple Intelligence仍遥遥无期。负责该部门的高级主管Robby Walker称此次延迟是一个“糟糕的”情况,并同情那些可能因苹果的决定和Siri仍然不佳的声誉而感到疲惫或沮丧的员工。
Robby Walker还表示,承诺过的Siri功能不一定会在今年出现在iOS 19中:“这是该公司目前的目标,但并不意味着我们会在那时推出。”
近几周,苹果一直无法摆脱有关其在Siri和人工智能方面进展缓慢的负面新闻。去年6月承诺过的高级智能功能至今无法兑现。几个月过去了,除了更漂亮的Siri动画外,几乎没有任何成果。
苹果尚未公开评论此事。当时该公司表示,高级Siri功能“比预期耗时更长”。但 Robby Walker 告诉员工,公司的软件主管、人工智能主管等高管正在为这一困境承担“个人责任”,然而这一困境引发了广泛的、激烈的批评。
这些功能对于Siri的现代化、苹果在人工智能竞赛中的追赶其实非常重要。我们仍然不知道这些Apple Intelligence功能何时会到来。似乎,从最近这次全体会议的讨论内容来看的话,苹果本身也不知道。
Siri的升级延迟,无疑给谷歌和OpenAI提供了更多的发展空间。在人工智能助手领域的竞争中,苹果正面临着越来越大的挑战。
行业影响:实时AI交互成为新趋势
谷歌Gemini Live新功能的推出,以及OpenAI GPT-4o的出现,都表明实时AI交互正在成为人工智能助手领域的新趋势。用户不再满足于简单的语音指令,而是希望AI能够真正理解他们的需求,并提供实时、个性化的服务。
实时AI交互的实现,需要强大的技术支持,包括:
-
自然语言处理(NLP): AI需要能够准确理解用户的语言,包括语音和文本。
-
计算机视觉(CV): AI需要能够识别图像和视频,理解画面内容。
-
实时数据处理: AI需要能够快速处理大量数据,并及时给出反馈。
-
低延迟通信: AI需要能够实现低延迟的通信,保证实时交互的流畅性。
随着技术的不断发展,实时AI交互将会变得越来越普及,并渗透到我们生活的方方面面。例如,在教育领域,AI可以为学生提供个性化的辅导;在医疗领域,AI可以帮助医生进行诊断和治疗;在金融领域,AI可以为客户提供投资建议。
未来展望:AI助手将走向何方?
人工智能助手的发展前景广阔,未来将朝着以下几个方向发展:
-
更加智能化: AI助手将具备更强的学习能力和推理能力,能够更好地理解用户的需求,并提供更加智能的服务。
-
更加个性化: AI助手将能够根据用户的个人偏好和习惯,提供个性化的服务,例如推荐个性化的内容、提供个性化的建议。
-
更加多模态: AI助手将能够理解多种输入方式,包括语音、文本、图像、视频等,并提供相应的服务。
-
更加集成化: AI助手将能够与其他设备和服务进行集成,例如智能家居设备、在线购物平台等,从而提供更加便捷的服务。
谷歌Gemini Live的升级,正是朝着这些方向迈出的重要一步。随着技术的不断发展,我们有理由相信,未来的AI助手将会变得更加智能、更加个性化、更加多模态、更加集成化,成为我们生活中不可或缺的一部分。
结论
谷歌Gemini Live此次推出的新功能,无疑是人工智能助手领域的一次重大突破。通过实时屏幕共享和视频理解,Gemini Live实现了与用户的实时互动,极大地拓展了其应用场景,并提升了用户体验。
此次升级不仅是对OpenAI GPT-4o的一次有力回应,也给苹果Siri带来了更大的竞争压力。在人工智能助手领域的竞争中,实时AI交互正在成为新的趋势。
随着技术的不断发展,我们有理由相信,未来的AI助手将会变得更加智能、更加个性化、更加多模态、更加集成化,成为我们生活中不可或缺的一部分。
参考文献:
- The Verge: Google Gemini Live gets video and screen sharing features as Project Astra rolls out. https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out
- The Verge: Apple’s Siri team is reportedly frustrated with delayed AI features. https://www.theverge.com/news/629940/apple-siri-robby-walker-delayed-ai-features
- 机器之心:刚刚,谷歌Gemini Live上新功能,能看懂手机屏幕、还能实时视频. [原始信息来源]
作者声明: 本文基于公开信息撰写,力求客观公正。文中观点仅代表作者个人,不代表任何机构或组织的立场。
“`
Views: 0