摘要: 机器人初创公司 Figure AI 在终止与 OpenAI 的合作后,迅速发布了自主研发的通用具身智能模型 Helix。该模型具备前所未有的能力,实现了多项“第一”,包括类人机器人上半身高速连续控制、多机器人协作、抓取任何物品以及本地 GPU 运行。Helix 的发布标志着具身智能领域的一大突破,或将加速机器人技术在家庭和商业环境中的应用。
北京,2024年2月22日 – 在人工智能与机器人技术融合的大潮中,一家名为 Figure AI 的公司正试图改写游戏规则。这家初创公司此前与 OpenAI 建立了合作关系,但在今年二月突然宣布终止合作。本周四晚,Figure AI 公开了背后的原因:他们已经打造出了自己的通用具身智能模型——Helix。
Helix 的出现,无疑给机器人领域带来了一股强劲的新风。这款视觉-语言-动作(VLA)模型,旨在统一感知、语言理解和学习控制,从而克服机器人技术长期面临的挑战。更令人瞩目的是,Helix 创造了多项“第一”:
- 全身控制: Helix 是首个能够对类人机器人上半身进行高速连续控制的 VLA 模型,其控制范围覆盖手腕、躯干、头部和单个手指。这意味着机器人能够执行更加复杂和精细的动作,为实现真正的人机协作奠定了基础。
- 多机器人协作: Helix 能够驱动两台机器人协同工作,完成以往无法想象的任务。这为自动化生产线、物流仓储等领域带来了新的可能性。
- 抓取任何物品: Helix 具备强大的物体识别和抓取能力,能够捡起任何小型物体,即使是机器人从未见过的物品,也能根据自然语言指令完成抓取。
- 单一神经网络: Helix 使用一组神经网络权重来学习所有行为,包括抓取和放置物品、使用抽屉和冰箱,以及跨机器人交互,无需针对特定任务进行微调。这大大提高了模型的通用性和可扩展性。
- 本地化: Helix 是首个能够在本地 GPU 运行的机器人 VLA 模型,这意味着它具备了商业化落地的潜力,无需依赖昂贵的云端计算资源。
Helix 的技术架构:系统 1 + 系统 2
Figure AI 将 Helix 描述为机器人领域首创的“系统 1 + 系统 2”VLA 模型。这一架构借鉴了人类认知科学中的双系统理论,旨在实现高速、灵巧地控制整个人形机器人上半身。
- 系统 1 (S1): 这是一个快速反应的视觉运动策略,能够将 S2 产生的潜在语义表征转换为 200 Hz 的精确连续机器人动作。S1 负责快速执行和调整动作,类似于人类的“直觉”反应。
- 系统 2 (S2): 这是一个机载互联网预训练的 VLM,以 7-9 Hz 运行,用于场景理解和语言理解,实现跨物体和上下文的广泛泛化。S2 负责“慢思考”,处理高层次目标和语义信息。
这种解耦架构允许每个系统在其最佳时间尺度上运行,使得机器人既能快速响应环境变化,又能进行复杂的任务规划。
商业化前景:从智能驾驶到具身智能
在智能驾驶领域,端到端技术的大规模落地正在加速。如今,由 VLA 驱动的机器人也已进入了商业化的倒计时。Figure AI 此次发布的 Helix 模型,无疑是具身智能领域的一次重大突破。
Figure AI 认为,家庭环境是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充满了无数非规则物体,这要求机器人能够按需生成智能的新行为。Helix 的出现,有望解决这一难题,使得机器人在家庭环境中发挥更大的作用。
参考文献:
- 机器之心. (2024, February 21). 踹了OpenAI后,Figure光速发布具身大模型Helix,能力前所未有、创多项第一. Retrieved from https://www.jiqizhixin.com/articles/2024-02-21-11
结语:
Figure AI 的 Helix 模型,代表了具身智能领域的一次重要进展。其独特的技术架构和强大的性能,为机器人技术在家庭、工业等领域的应用带来了新的可能性。然而,要实现真正的通用机器人智能,仍然面临着诸多挑战。未来,我们期待看到更多创新性的技术涌现,推动机器人技术不断发展,最终实现人与机器的和谐共存。
Views: 0