通用计算机控制的AI Agent框架Cradle问世,开启人机交互新纪元

北京时间2024年3月20日,昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖机构,共同发布了通用计算机控制的多模态AI Agent框架Cradle。Cradle是一个突破性的AI框架,它能够像人一样直接控制键盘鼠标,无需训练便能实现与任意开闭源软件交互,开启了人机交互的新纪元。

Cradle的诞生源于对通用计算机控制(General Computer Control, GCC)的探索。传统的人工智能模型通常需要针对特定任务进行训练,而Cradle则致力于打造一个能够像人一样理解计算机界面、执行各种操作的通用AI Agent。它能够通过多模态信息处理、自我反思机制、任务推断与规划、技能生成与更新等技术,实现对计算机的灵活操控。

Cradle的主要功能包括:

  • 信息收集:Cradle能够从屏幕图像和声音中提取多模态信息,用于决策制定。
  • 自我反思:Cradle能够评估先前行动的成功与否,并分析失败原因,以指导后续行动。
  • 任务推断:Cradle能够根据当前环境和历史信息,推断并选择最佳的下一个任务。
  • 技能策划:Cradle能够生成和更新与给定任务相关的技能,以适应不同的计算机操作需求。
  • 动作规划:Cradle能够为键盘和鼠标控制生成具体操作,将策略转化为可执行的命令。

Cradle的技术原理主要体现在以下几个方面:

  • 多模态输入处理:Cradle能够接收并处理屏幕图像和音频的多模态输入,模拟人类感知方式理解计算机界面和环境。
  • 信息提取与理解:Cradle利用大型多模态模型(如GPT-4V)来识别图像中的视觉元素、文本信息和音频中的指令或反馈。
  • 自我反思机制:Cradle通过反思模块评估之前执行动作是否成功,并分析失败原因,为调整策略提供依据。
  • 任务推断与规划:Cradle通过任务推断模块确定当前的优先任务,并在动作规划模块中制定出新动作完成任务。
  • 技能生成与更新:Cradle通过技能策划模块根据当前任务生成新的技能或更新现有技能,技能以代码函数的形式存在,可以被实例化并执行。
  • 记忆与知识管理:Cradle拥有长期和短期记忆系统,存储过去的经验和技能,在需要时进行检索和应用。

Cradle的应用场景十分广泛,包括:

  • 桌面软件自动化:自动化执行桌面软件中的重复性任务,如文档编辑、表格处理、图像编辑等。
  • 网页内容交互:模拟用户与网页的交互,包括填写表单、点击按钮、导航链接等。
  • 游戏环境:在游戏环境中,如Red Dead Redemption II,Cradle可控制游戏角色执行任务、探索环境、战斗等。
  • 专业软件操作:在需要专业技能的软件中,如图形设计或视频编辑软件,Cradle可学习并执行特定的创作任务。
  • 日常计算机任务:执行日常计算机使用中的任务,比如文件管理、电子邮件处理、日程安排等。

Cradle的开源发布,意味着任何人都可以参与到AI Agent的开发和应用中,推动通用计算机控制技术的快速发展。未来,Cradle有望在更多领域发挥作用,为人类的生活和工作带来革命性的改变。

Cradle的项目地址:

  • GitHub仓库:https://github.com/BAAI-Agents/Cradle
  • arXiv技术论文:https://arxiv.org/pdf/2403.03186

Cradle的出现,标志着AI Agent技术迈入了新的发展阶段,它将为我们带来更加智能、便捷、高效的人机交互体验。相信随着技术的不断进步,Cradle将不断完善,为人类社会创造更多价值。

【source】https://ai-bot.cn/cradle/

Views: 1

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注