Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京 – 在人工智能领域,一场新的竞赛正在悄然展开。就在OpenAI发布其备受期待的智能体“Operator”后不久,中国科技巨头字节跳动旗下的豆包大模型团队,以一款名为“UI-TARS”的开源智能体,迅速吸引了全球科技界的目光。与OpenAI的商业化策略不同,字节跳动选择免费开源,这一举动不仅引发了广泛讨论,更被网友戏称为“怒省200美元”。

智能体时代来临:巨头竞相布局

1月24日凌晨,OpenAI面向其ChatGPT Pro用户推出了“Operator”,这款智能体被视为与ChatGPT、Sora并列的重要产品,预示着人工智能正加速迈向智能体时代。OpenAI的这一举动,呼应了科技界大佬如Sam Altman、黄仁勋和扎克伯格等人的预测:2025年将是AI智能体爆发之年。

然而,就在OpenAI发布“Operator”的前两天,字节跳动已率先一步,推出了其自主研发的智能体“UI-TARS”。这款智能体以电影《星际穿越》中的机器人TARS为灵感,象征着其高度的智能和自主思考能力。更令人瞩目的是,UI-TARS是完全开源的,用户可以免费使用,并获得详细的技术报告进行学习。

UI-TARS:开源的力量

UI-TARS的开源策略,无疑为智能体的普及和学术研究注入了强大的动力。发布仅三四天,UI-TARS在GitHub上的star量就突破了1000,其支持Windows和Mac系统的桌面客户端更是达到了1600 stars,这充分显示了开源智能体项目在社区的稀缺性和受欢迎程度。

不仅如此,此前在业内小有名气的Web自动化框架Midscene.js,在接入UI-TARS后也获得了大量关注,甚至登上了Github Trending榜单。

通过实际测试,UI-TARS展现了强大的功能。它不仅能像Operator一样控制浏览器和执行推理,还能操作屏幕上显示的一切内容。例如,它可以帮助用户调整Chrome浏览器的字体大小,甚至可以根据用户指令订购机票,并按照价格排序。更令人惊喜的是,UI-TARS不仅能操控电脑,还能操控手机。

技术创新:UI-TARS的秘密

字节跳动豆包大模型团队认为,要实现AI智能体类人的自主任务执行能力,必须解决当前通用大模型在GUI(图形用户界面)智能体应用上存在的不足。

UI-TARS的技术创新主要体现在以下几个方面:

  • 增强感知(Enhanced Perception): 通过大规模GUI截图数据集,实现对UI元素的上下文感知理解,并生成精确描述。
  • 统一动作建模(Unified Action Modeling): 将动作标准化处理到跨平台的统一空间中,并通过大规模动作轨迹实现精确定位和交互。
  • System 2 推理(System-2 Reasoning): 将深思熟虑的推理纳入多步决策,涵盖任务分解、反思思维等多种推理模式。
  • 迭代式反思训练(Iterative Training with Reflective Online Traces): 通过在数百台虚拟机上自动收集、过滤和反射细化新的交互轨迹,解决数据瓶颈问题。

这些创新使得UI-TARS能够持续从错误中学习,并在最少的人为干预下适应不可预见的情况。

开源与商业:两种不同的路径

OpenAI的Operator选择了商业化道路,面向月费200美元的ChatGPT Pro用户开放。而字节跳动的UI-TARS则选择了开源,免费向公众开放。这两种不同的路径,反映了两种不同的发展理念。

OpenAI的商业化策略,旨在通过收费服务来支持其庞大的研发投入,并保持其在人工智能领域的领先地位。而字节跳动的开源策略,则更注重技术的普及和社区的共同发展,希望通过开源的力量,加速智能体时代的到来。

结语:智能体时代的未来

UI-TARS的出现,无疑为智能体领域注入了新的活力。其开源策略不仅降低了智能体技术的门槛,也为全球的开发者和研究者提供了宝贵的学习资源。随着越来越多的智能体涌现,我们有理由相信,人工智能的未来将更加智能、高效和便捷。

参考文献:

(注:以上信息基于提供的资料进行整理和分析,部分观点为作者基于事实进行的推断和解读。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注