引言:
人类的沟通远不止言语,手势、表情、姿态,乃至语气中的细微变化,都承载着丰富的信息。长期以来,人工智能在理解和生成人类行为时,往往局限于单一模态,难以捕捉这种多维度的复杂性。近日,斯坦福大学李飞飞、Gordon Wetzstein和Ehsan Adeli领导的研究团队,在多模态AI领域取得了突破性进展,他们提出的全新模型不仅能够理解指令,更能“读懂”人类沟通中隐含的情绪,为实现真正的人机自然交互迈出了重要一步。
主体:
多模态融合:AI理解人类行为的新视角
人类的沟通交流是多模态的,包含了语言、肢体动作、面部表情以及情绪表达等多种信息。为了让AI更好地理解和生成人类动作,研究人员越来越关注多模态行为的研究。李飞飞团队的这项研究,正是基于这一理念,探索了语音、文本和动作生成之间的关联,并提出了一个全新的多模态语言模型。该模型能够同时接收音频和文本输入,生成相应的动作,例如,当用户指定下半身动作为绕圈走,并用语音描述上半身动作时,模型能够生成协调一致的全身动作。更令人瞩目的是,该模型还支持动作编辑,可以灵活地将绕圈走动替换为后退、跳跃、跑步等其他动作,并且生成的动作依然自然流畅,与语音内容保持高度协调。
模型核心:统一言语与非言语的“动作语言”
这项研究的核心在于,将人类动作的言语和非言语语言统一起来。研究团队认为,语言模型是实现这一目标的关键,原因有三:首先,语言模型可以自然地与其他模态连接;其次,语音富含语义,需要强大的语义推理能力来建模;最后,经过大量预训练的语言模型具备强大的语义理解能力。基于此,团队构建了一个全新的多模态语言模型。
为了让语言模型能够理解动作,研究人员首先将动作转化为token。他们针对不同的身体部位(脸部、手部、上身、下身)分别进行动作token化,并结合现有的文本和语音token化策略,将各种模态的输入都转化为token。为了训练这个多模态token的语言模型,研究团队设计了一个两阶段的训练流程:首先,进行预训练,通过身体组合动作对齐和音频-文本对齐来对齐各种模态;然后,将下游任务编译成指令,训练模型遵循各种任务指令。实验结果表明,该模型在多模态任务上的表现优于其他最先进的模型,并且在数据稀缺的情况下,预训练策略的优势更为明显。
模型架构:多模态信息融合与自监督学习
该模型的整体架构包含针对特定模态的tokenizer,用于处理各种输入模态。研究团队训练了一个组合式的身体动作VQ-VAE,将面部、手部、上半身和下半身的动作token化为离散的token,并将这些特定模态的词汇表(音频和文本)合并成一个统一的多模态词汇表。在训练过程中,模型使用来自不同模态的混合token作为输入,并通过编码器-解码器语言模型生成输出。
为了解决动作生成模型严重依赖成对数据的难题,研究团队引入了一种生成式预训练策略,在预训练阶段实施了两种类型的模态对齐:组合动作对齐和音频-文本对齐。组合动作对齐通过建模不同身体部位之间的空间和时间关系,使模型能够捕捉动作的内在规律。音频-文本对齐则利用大量未配对的音频和文本数据,提升模型的泛化能力。
意义与展望:迈向“空间智能”的坚实一步
这项研究不仅在技术上取得了突破,更重要的是,它为李飞飞团队的长远“空间智能”目标奠定了坚实的基础。该模型不仅能够理解指令,更能理解人类沟通中隐含的情绪,为实现真正的人机自然交互提供了新的可能性。未来,这项技术有望应用于虚拟现实、人机交互、机器人控制等多个领域,为人类生活带来更智能、更便捷的体验。
结论:
李飞飞团队的这项研究,为多模态AI的发展指明了新的方向。通过统一动作与语言,并赋予AI理解人类隐含情绪的能力,他们不仅推动了人工智能技术的进步,也为我们重新审视人机交互的未来提供了新的视角。这项研究的成功,预示着一个更加智能、更加人性化的未来正在向我们走来。
参考文献:
- Chen, C., Zhang, J., Lakshmikanth, S. K., et al. (2024). The Language of Motion: Unifying Verbal and Non-verbal Languageof 3D Human Motion. arXiv preprint arXiv:2412.10523.
- 项目页面:https://languageofmotion.github.io/
(注:以上新闻稿基于您提供的信息撰写,并进行了适当的扩展和润色,以符合新闻报道的规范和要求。)
Views: 0