李飞飞团队新模型：通晓指令，洞察情绪

引言：

人类的沟通远不止言语，手势、表情、姿态，乃至语气中的细微变化，都承载着丰富的信息。长期以来，人工智能在理解和生成人类行为时，往往局限于单一模态，难以捕捉这种多维度的复杂性。近日，斯坦福大学李飞飞、Gordon Wetzstein和Ehsan Adeli领导的研究团队，在多模态AI领域取得了突破性进展，他们提出的全新模型不仅能够理解指令，更能“读懂”人类沟通中隐含的情绪，为实现真正的人机自然交互迈出了重要一步。

主体：

多模态融合：AI理解人类行为的新视角

人类的沟通交流是多模态的，包含了语言、肢体动作、面部表情以及情绪表达等多种信息。为了让AI更好地理解和生成人类动作，研究人员越来越关注多模态行为的研究。李飞飞团队的这项研究，正是基于这一理念，探索了语音、文本和动作生成之间的关联，并提出了一个全新的多模态语言模型。该模型能够同时接收音频和文本输入，生成相应的动作，例如，当用户指定下半身动作为绕圈走，并用语音描述上半身动作时，模型能够生成协调一致的全身动作。更令人瞩目的是，该模型还支持动作编辑，可以灵活地将绕圈走动替换为后退、跳跃、跑步等其他动作，并且生成的动作依然自然流畅，与语音内容保持高度协调。

模型核心：统一言语与非言语的“动作语言”

这项研究的核心在于，将人类动作的言语和非言语语言统一起来。研究团队认为，语言模型是实现这一目标的关键，原因有三：首先，语言模型可以自然地与其他模态连接；其次，语音富含语义，需要强大的语义推理能力来建模；最后，经过大量预训练的语言模型具备强大的语义理解能力。基于此，团队构建了一个全新的多模态语言模型。

为了让语言模型能够理解动作，研究人员首先将动作转化为token。他们针对不同的身体部位（脸部、手部、上身、下身）分别进行动作token化，并结合现有的文本和语音token化策略，将各种模态的输入都转化为token。为了训练这个多模态token的语言模型，研究团队设计了一个两阶段的训练流程：首先，进行预训练，通过身体组合动作对齐和音频-文本对齐来对齐各种模态；然后，将下游任务编译成指令，训练模型遵循各种任务指令。实验结果表明，该模型在多模态任务上的表现优于其他最先进的模型，并且在数据稀缺的情况下，预训练策略的优势更为明显。

模型架构：多模态信息融合与自监督学习

该模型的整体架构包含针对特定模态的tokenizer，用于处理各种输入模态。研究团队训练了一个组合式的身体动作VQ-VAE，将面部、手部、上半身和下半身的动作token化为离散的token，并将这些特定模态的词汇表（音频和文本）合并成一个统一的多模态词汇表。在训练过程中，模型使用来自不同模态的混合token作为输入，并通过编码器-解码器语言模型生成输出。

为了解决动作生成模型严重依赖成对数据的难题，研究团队引入了一种生成式预训练策略，在预训练阶段实施了两种类型的模态对齐：组合动作对齐和音频-文本对齐。组合动作对齐通过建模不同身体部位之间的空间和时间关系，使模型能够捕捉动作的内在规律。音频-文本对齐则利用大量未配对的音频和文本数据，提升模型的泛化能力。

意义与展望：迈向“空间智能”的坚实一步

这项研究不仅在技术上取得了突破，更重要的是，它为李飞飞团队的长远“空间智能”目标奠定了坚实的基础。该模型不仅能够理解指令，更能理解人类沟通中隐含的情绪，为实现真正的人机自然交互提供了新的可能性。未来，这项技术有望应用于虚拟现实、人机交互、机器人控制等多个领域，为人类生活带来更智能、更便捷的体验。

结论：

李飞飞团队的这项研究，为多模态AI的发展指明了新的方向。通过统一动作与语言，并赋予AI理解人类隐含情绪的能力，他们不仅推动了人工智能技术的进步，也为我们重新审视人机交互的未来提供了新的视角。这项研究的成功，预示着一个更加智能、更加人性化的未来正在向我们走来。

参考文献：

Chen, C., Zhang, J., Lakshmikanth, S. K., et al. (2024). The Language of Motion: Unifying Verbal and Non-verbal Languageof 3D Human Motion. arXiv preprint arXiv:2412.10523.
项目页面：https://languageofmotion.github.io/

（注：以上新闻稿基于您提供的信息撰写，并进行了适当的扩展和润色，以符合新闻报道的规范和要求。）

>>> Read more <<<