哈工深Optimus-1：Minecraft AI王者诞生

Optimus-1: 哈工深团队打造的Minecraft超级智能体，挑战长序列任务极限

引言： 在广袤的Minecraft世界中，建造宏伟建筑、打造精良装备，需要一系列复杂且连贯的操作。这对于人工智能来说，是一个极大的挑战。哈尔滨工业大学（深圳）和鹏城实验室的研究团队近日在NeurIPS 2024会议上发表论文，介绍了他们研发的全新智能体——Optimus-1。这款智能体不仅能够完成一系列长序列任务，还在67个任务中取得了当前最先进的性能，显著缩小了与人类水平的差距，为人工智能在复杂环境下的应用开辟了新的道路。

主体：

现有的Minecraft智能体通常依赖于大语言模型或多模态大模型来生成行动规划。然而，这些模型往往缺乏足够的知识和经验，在面对Minecraft世界中错综复杂的场景和长序列任务时，表现力不足，容易陷入困境。Optimus-1的突破性在于它巧妙地结合了结构化知识和多模态经验，赋予智能体更强大的决策能力和适应性。

1. 混合多模态记忆（Hybrid Multimodal Memory）： Optimus-1的核心在于其创新的混合多模态记忆模块，它由两个关键部分组成：

摘要化多模态经验池 (AMEP): AMEP 就像智能体的“经验宝库”，它存储并整合了智能体在游戏过程中积累的视觉（图像、视频）、文本和环境信息。为了提高效率和降低存储成本，AMEP 对经验进行了摘要化处理，只保留关键信息。例如，通过MineCLIP模型计算视频帧和文本描述的相似度，只保存高相似度的多模态数据。
层次化有向知识图 (HDKG): HDKG 则相当于智能体的“知识库”，它以图结构的形式存储Minecraft世界的结构化知识，例如各种物品的合成配方、科技树的层级关系等。“两根木棍和三块木板可以合成一把木镐”这样的知识，会被表示成一个有向图：{2 sticks, 3 planks} → {1 wooden pickaxe}。这使得智能体能够进行更有效的规划和推理。

2. 知识引导的规划器和经验驱动的反思器： Optimus-1的架构包含知识引导的规划器和经验驱动的反思器，两者协同工作，确保智能体能够高效地完成任务。

知识引导的规划器: 规划器利用HDKG中的知识，结合当前的视觉观察，生成一系列可执行的子目标，为行动控制器提供指导。
经验驱动的反思器: 在执行任务的过程中，反思器会定期激活，从AMEP中检索与当前子目标相关的多模态经验，对智能体的当前状态进行评估，并根据经验调整行动策略，避免错误和无效操作。

3. 行动控制器: 行动控制器接收规划器生成的子目标和当前的视觉观察，最终生成具体的行动指令，控制智能体在Minecraft世界中进行操作。

结论：

Optimus-1的成功，在于其对结构化知识和多模态经验的有效整合。这种混合多模态记忆机制，赋予了智能体更强的学习能力、规划能力和适应能力，使其能够在复杂的长序列任务中取得突破性的进展。 Optimus-1在67个长序列任务上的优异表现，证明了这种方法的有效性，也为未来人工智能在复杂环境下的应用提供了新的思路。未来的研究可以进一步探索更复杂的知识表示方法、更有效的经验学习机制，以及更强大的多模态融合技术，以进一步提升智能体的性能，最终实现更接近于人类水平的智能。

参考文献：

Li, Z., et al. (2024). Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks. NeurIPS 2024. https://arxiv.org/abs/2408.03615
(项目主页和代码仓库链接，根据提供的链接补充)

(注：由于我没有访问互联网的能力，无法验证提供的链接和信息准确性。请读者自行核实。)

>>> Read more <<<