Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

shanghaishanghai
0

摘要: 谷歌Gemini Live迎来重大更新,正式推出实时AI视频交互功能,集成Project Astra承诺,用户现可通过屏幕共享和实时摄像头画面解读,与AI进行即时互动。此举不仅兑现了谷歌在MWC上的承诺,更标志着谷歌在人工智能助手领域向OpenAI发起强有力挑战。与此同时,苹果Siri的AI升级却遭遇延期,凸显了AI竞赛的激烈与不确定性。

正文:

在人工智能领域,一场关于实时交互能力的竞赛正愈演愈烈。谷歌近日宣布,其Gemini Live正式上线全新功能,允许用户通过实时视频与AI进行互动,进一步提升了AI助手在日常生活中的实用性。这一举措被视为谷歌对标OpenAI GPT-4o的重要一步,也预示着人工智能助手正朝着更加智能化、个性化的方向发展。

一、Gemini Live新功能:实时交互体验再升级

谷歌发言人Alex Joseph向The Verge证实,Gemini Live已开始向用户推送新的AI功能,其中包括屏幕共享和实时视频解读。用户现在可以通过点击“Share screen with Live”按钮,将手机屏幕信息分享给Gemini,AI能够读取屏幕内容并回答相关问题。此外,Gemini Live还新增了实时视频功能,用户可以通过手机摄像头捕捉画面,让AI实时解读画面内容并提供即时反馈。

这一功能的推出,标志着Gemini Live在实时人工智能交互方面取得了显著进展。用户不再局限于传统的语音或文本输入,而是可以通过更加直观、便捷的方式与AI进行互动。例如,用户可以向Gemini展示手机屏幕上的购物清单,询问哪些商品更健康;或者通过摄像头拍摄眼前的风景,让Gemini介绍景点的历史文化背景。

Reddit用户率先体验了屏幕共享功能,并分享了一段演示视频。视频显示,Gemini能够根据用户共享的屏幕信息,准确回答今天的日期、温度等问题。这一功能的实用性不言而喻,用户可以在需要帮助时,随时随地向Gemini寻求支持。

实时视频功能则更具想象空间。在谷歌官方发布的一段演示视频中,用户向Gemini求助,询问哪种颜色的颜料更适合上釉的陶器。用户打开手机摄像头,对准釉料进行实时拍摄,Gemini几乎毫无延迟地给出了建议。更令人印象深刻的是,用户可以继续追问,Gemini依然能够对答如流,展现了强大的理解和推理能力。

二、Project Astra:谷歌实时AI交互的核心引擎

Gemini Live的实时交互能力,离不开谷歌Project Astra项目的支持。Project Astra是谷歌于去年发布的AI智能体项目,旨在通过摄像头实现用户与大模型之间的实时视觉与语音交互。该项目被视为谷歌对标OpenAI GPT-4o的重要研究成果。

Project Astra具有以下三个显著特点:

  1. 实时对话: Project Astra支持实时音频和视频对话,延迟极低,并且掌握多种语言,能够满足不同用户的需求。
  2. 记忆: Project Astra能够记住过去对话的关键细节,以及当前会话中最多10分钟的内容,从而更好地理解用户的意图,并提供更精准的回答。
  3. 工具调用: Project Astra可以调用谷歌搜索、地图等工具,为用户提供更全面的信息和服务。例如,当用户询问某个餐厅的评价时,Project Astra可以调用谷歌搜索,抓取相关评论并呈现给用户。

此外,Project Astra还支持跨设备工作,用户可以在安卓手机或原型眼镜上使用该功能。这意味着,用户可以在不同场景下,随时随地与AI进行互动。

三、OpenAI的先行优势与谷歌的追赶

事实上,视频对话功能并非新鲜概念。OpenAI早在去年12月底就在ChatGPT的移动端应用程序App中上线了高级语音模式Advanced Voice,提供了视频和共享屏幕功能。不过,该功能目前仅对Plus用户和Pro用户开放。

谷歌此时推出类似功能,无疑是在努力保持其在人工智能助手领域的领先地位。虽然OpenAI在视频对话功能方面具有一定的先发优势,但谷歌凭借其强大的技术实力和庞大的用户基础,有望在这一领域迎头赶上。

四、苹果Siri的困境:AI竞赛中的掉队风险

与谷歌和OpenAI的积极进取形成鲜明对比的是,苹果Siri的AI升级却遭遇了延期。彭博社报道称,Siri团队内部会议记录显示,苹果期待的Apple Intelligence仍遥遥无期。负责该部门的高级主管Robby Walker坦言,此次延迟是一个“糟糕的”情况,并对那些可能因苹果的决定和Siri仍然不佳的声誉而感到疲惫或沮丧的员工表示同情。

Robby Walker还表示,承诺过的Siri功能不一定会在今年出现在iOS 19中:“这是该公司目前的目标,但并不意味着我们会在那时推出。”

近几周,苹果一直无法摆脱有关其在Siri和人工智能方面进展缓慢的负面新闻。去年6月承诺过的高级智能功能至今无法兑现,除了更漂亮的Siri动画外,几乎没有任何成果。

苹果尚未公开评论此事,但此前该公司曾表示,高级Siri功能“比预期耗时更长”。Robby Walker告诉员工,公司的软件主管、人工智能主管等高管正在为这一困境承担“个人责任”,然而这一困境引发了广泛的、激烈的批评。

Siri的现代化和苹果在人工智能竞赛中的追赶,都离不开这些高级智能功能。然而,目前尚不清楚这些功能何时能够到来。从最近这次全体会议的讨论内容来看,苹果本身似乎也无法给出明确的时间表。

Siri的困境凸显了人工智能竞赛的激烈与不确定性。即使是像苹果这样的科技巨头,也可能在AI领域遭遇挑战。

五、实时AI视频交互的未来展望

Gemini Live的实时AI视频交互功能,代表了人工智能助手发展的一个重要方向。随着技术的不断进步,我们可以期待以下几个方面的未来发展:

  1. 更强的理解能力: 未来的AI助手将能够更深入地理解用户的意图,并提供更精准、个性化的回答。例如,AI助手可以根据用户的面部表情和语音语调,判断用户的情绪状态,并提供相应的安慰或建议。
  2. 更丰富的应用场景: 实时AI视频交互功能将在更多领域得到应用。例如,在教育领域,学生可以通过摄像头向AI助手提问,获得实时的辅导和解答;在医疗领域,医生可以通过摄像头远程诊断患者的病情,并提供治疗建议。
  3. 更自然的交互方式: 未来的AI助手将能够以更自然、更流畅的方式与用户进行交互。例如,AI助手可以像真人一样,与用户进行眼神交流,并使用更生动的语言表达。

六、结论:AI竞赛进入新阶段,用户体验至关重要

谷歌Gemini Live的重磅升级,标志着人工智能竞赛进入了一个新的阶段。实时AI视频交互功能的推出,不仅提升了AI助手的实用性,也为用户带来了更便捷、更智能的体验。

在未来的竞争中,用户体验将成为关键因素。只有那些能够真正满足用户需求、提供优质服务的AI助手,才能赢得用户的青睐。

谷歌和OpenAI都在积极探索实时AI视频交互的潜力,而苹果Siri的困境则提醒我们,在AI领域,技术创新和用户体验同样重要。

随着技术的不断发展,我们有理由相信,未来的AI助手将变得更加智能化、个性化,并为我们的生活带来更多便利。

参考文献:

致谢:

感谢机器之心对本次新闻事件的报道,为本文提供了重要的信息来源。同时,感谢The Verge等媒体的深度分析,帮助我们更好地理解了人工智能领域的最新动态。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注