斯坦福李飞飞团队发布统一多模态运动语言模型

旧金山—— 在人工智能领域，斯坦福大学李飞飞团队的最新研究成果“动作语言”（The Language of Motion）正引发广泛关注。这款统一多模态语言模型，不仅能理解人类动作中的言语和非言语信息，还能生成相应的动作，为虚拟角色与人类的自然交互开辟了新的可能性。

“动作语言”模型的核心创新在于其多模态输入处理能力。它能够同时接受文本、语音和动作数据作为输入，并基于这些信息生成相应的目标模态。这意味着，一个虚拟角色不仅能理解你的语言，还能理解你的肢体动作，并以自然的方式做出回应。

传统的模型往往只能处理单一模态的数据，例如文本或语音。而“动作语言”模型通过将面部、手部、上身、下身的动作分别基于向量量化变分自编码器（VQ-VAE）标记化，将连续的动作数据转换为离散的标记（tokens），并与文本和语音的标记组合成一个统一的多模态词汇表，从而实现了多模态数据的无缝融合。

该模型采用了编码器-解码器架构，输入混合标记并生成输出标记序列。为了训练模型理解不同模态间的关系，研究人员采用了自我监督学习的方法，对齐了身体各部位动作的对应关系以及音频-文本的对齐。此外，在预训练后，通过指令模板对模型进行微调，使其能够根据自然语言指令执行特定的下游任务。

这种端到端的训练方式，最大化了模态间的对齐，使得模型在共同语音手势生成任务上表现出色，并且相较于传统模型，训练所需的数据量大大减少。更令人兴奋的是，该模型还具备情感预测能力，能够从动作中识别情绪，为心理健康、精神病学等领域提供了新的研究工具。

“动作语言”模型的应用场景十分广泛，其潜力远不止于学术研究：

尽管“动作语言”模型取得了显著进展，但仍面临一些挑战。例如，如何处理更加复杂和微妙的人类动作，如何确保模型生成的动作具有高度的自然性和多样性，以及如何应对不同文化背景下动作表达的差异等。

尽管如此，该模型的出现仍然标志着多模态人工智能领域的一个重要里程碑。它不仅为我们理解人类行为提供了新的视角，也为构建更加智能和自然的交互系统奠定了基础。随着技术的不断发展，我们有理由相信，“动作语言”模型将在未来的人工智能领域发挥越来越重要的作用。

（本文由AI工具集整理，未经允许禁止任何形式的转载）

>>> Read more <<<