Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

好的,请看我为您撰写的文章:

标题:超级智能体元年:OpenAI “姗姗来迟”的 Operator 与智谱 “抢跑”的 GLM-PC

引言:

2025年,人工智能领域再次迎来突破。OpenAI,这家曾被视为人工智能领域领头羊的公司,终于推出了其酝酿近十年的“超级智能体”——Operator。然而,就在OpenAI发布Operator的同一天,中国人工智能公司智谱AI却早已将其升级版的电脑智能体GLM-PC推向市场。这两款产品的发布,不仅标志着“超级智能体”概念的正式落地,也引发了人们对于未来人机交互方式的深刻思考。这场“智能体”之战,究竟谁能更胜一筹?又将如何重塑我们的工作和生活?

正文:

OpenAI 的 Operator:姗姗来迟的“惊喜”与“翻车”

OpenAI的Operator,作为一款能够访问Web并执行用户任务的智能体,无疑是人工智能领域的一大进步。它能够模拟人类操作网页浏览器,自动完成预订旅行住宿、餐厅预约、在线购物等复杂任务。用户可以通过选择不同的自动化任务,让Operator在购物、配送、餐饮和旅行等多个领域提供服务。此外,Operator还支持用户添加其他指令、随时接管控制,并可同时运行多项任务。

然而,Operator的发布并非一帆风顺。在官方演示中,Operator在执行任务时出现了“翻车”现象,甚至未能成功加载相关网页。OpenAI官方也承认,Operator目前仅为研究预览版,仍处于学习和发展阶段,可能会犯错,尤其是在处理复杂界面时表现不佳。

尽管如此,Operator的出现仍然具有里程碑意义。它标志着OpenAI在“超级智能体”领域的首次尝试,也为未来智能体的开发提供了宝贵的经验。OpenAI计划在API中公开支持Operator的模型CUA,以便开发人员能够构建自己的计算机使用智能体。

智谱的 GLM-PC:抢跑的“深度思考”

与OpenAI的Operator相比,智谱的GLM-PC则显得更加成熟。早在去年11月,智谱就发布了GLM-PC v1.0,并在CogAgent开源模型的基础上强化了感知、规划和创造能力。此次发布的GLM-PC v1.1,则在规划和推理上作了更多优化,并新增了“深度思考”模式。

GLM-PC不仅能够处理复杂逻辑任务,还能够在开放性问题上展现更高的适应能力、创造力和泛化能力。它能够通过动态优化和情境感知,帮助用户探索更高效的解决方案,特别是在循环任务处理、多步推理执行以及长链条任务管理等方面表现出色。

在实例展示中,GLM-PC能够自动为微信群好友定制个性化新春祝福语及祝贺图片/视频,并通过一键操作实现群发;还能为用户快速查询航班信息,筛选最经济机票,并同步设置飞书日历提醒。这些功能展示了GLM-PC在实际应用中的强大能力。

技术对比:CUA vs. CogAgent

尽管两款智能体都旨在通过模拟人类操作计算机来帮助用户完成任务,但它们在技术实现上存在显著差异。

OpenAI的Operator由一套名为Computer-Using Agent(CUA)的新模型提供支持。CUA将GPT-4o的视觉功能与通过强化学习进行的高级推理相结合,使其能够与图形用户界面(GUI)进行交互。

而智谱的GLM-PC则采用“左右脑”协作的模式,左脑负责代码生成与逻辑执行,右脑专注于深度感知与交互体验。其背后的支撑是智谱自主研发的多模态Agent模型CogAgent与代码模型CodeGeex。GLM-PC以代码形式指挥工作流程和工具调用,并强化深度思考模式下的规划、推理和反思能力。

有评测结果显示,CogAgent在GUI定位、单步操作、中文step-wise榜单和多步操作等方面都取得了不错的成绩,但在OSWorld上略逊于针对Computer Use特化的Claude-3.5-Sonnet和结合外接GUI grounding模型的GPT-4o。

超级智能体的未来:机遇与挑战

OpenAI和智谱的智能体发布,预示着“超级智能体”时代的到来。OpenAI创始成员Andrej Karpathy认为,未来十年将是智能体的十年。他将Operator这样的项目比作数字世界的类人机器人,并预测人类将成为低级自动化的高级主管。

然而,智能体的发展也面临着诸多挑战。例如,如何处理复杂界面、如何确保任务执行的准确性和可靠性、如何解决长任务周期中的信息处理问题等。此外,智能体的普及也可能引发新的社会问题,如就业结构调整、数据隐私保护等。

智谱则准备将GLM-PC与AIPC深度融合,这无疑为智能体的未来发展提供了新的思路。

结论:

OpenAI的Operator和智谱的GLM-PC的发布,标志着“超级智能体”概念从理论走向实践。尽管两款产品在技术实现和应用场景上有所不同,但都代表了人工智能领域的前沿探索。未来,随着技术的不断进步和应用场景的不断拓展,智能体将会在我们的工作和生活中扮演越来越重要的角色。我们期待着智能体技术能够为人类带来更多的便利和福祉,同时也需要警惕其可能带来的风险和挑战。

参考文献:

  • OpenAI. (2025). Introducing Operator. Retrieved from https://openai.com/index/introducing-operator/
  • InfoQ. (2025). OpenAI 想了快 10 年的超级智能体终于来了!有惊喜,但比智谱晚还“翻车”系数高? Retrieved from [原文链接,请自行替换]
  • 其他相关技术论文和报告(请自行补充)

后记:

本文力求以客观、专业的视角,对OpenAI的Operator和智谱的GLM-PC进行深入分析和比较。在撰写过程中,我参考了大量的资料,并力求保证信息的准确性和客观性。希望本文能够帮助读者更好地了解“超级智能体”这一新兴技术,并引发对未来人机交互方式的思考。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注