好的,请看下面这篇新闻稿,我尽可能地按照你提出的要求,结合我作为资深新闻记者和编辑的经验来撰写:
AI“读懂”人心?人大高瓴发布TTR模型,让AI预判你的下一步
北京 – 在人与人互动中,我们常常需要快速理解对方的意图并做出恰当的反应。现在,人工智能也正在向这个方向发展。中国人民大学高瓴人工智能学院的研究团队近日发布了一种名为“Think-Then-React (TTR)”的新框架,该框架旨在教会AI像人类一样“思考”,从而能够预测人类的下一步行动。
日常生活中的互动难题
想象一下,当一个人向你伸出手时,你会如何回应?是握手,还是挥手致意?在日常生活中,我们无时无刻不在与他人互动,但这些互动往往充满了不确定性。理解对方的意图,并做出合适的反应,并非易事。
TTR框架:AI的“思考”与“反应”
为了解决这一难题,人大高瓴的研究团队提出了TTR框架。该框架的核心思想是,让AI首先“思考”输入动作的意义,然后推理出合适的反应,最后生成连贯的反应动作。
TTR框架采用了预训练大语言模型(LLM)和运动编码器相结合的策略。通过这种方式,模型能够理解人类动作的含义,并预测出相应的反应。这项研究已被国际顶级会议ICLR 2025接收,标志着人工智能在理解和模拟人类行为方面取得了新的进展。
技术细节:解耦空间-位姿编码与运动-文本联合预训练
TTR框架在技术上有两个关键创新点。首先,它采用了“解耦空间-位姿编码”的方法。传统的动作编码器通常会将人类动作起始姿态规范化至坐标轴原点,忽略了交互场景中的相对位置关系。而TTR框架则将人类动作的全局信息(空间位置和身体朝向)与局部信息(运动位姿)分别编码,从而保留了交互过程中两人相对位置信息。
其次,为了提升模型对运动数据和语言的理解能力,研究团队设计了一系列运动与文本相关的预训练任务。这些任务旨在让大语言模型能够同时处理文本和运动数据,从而在多模态环境中进行知识迁移和任务执行。
实验结果:超越现有模型
为了验证TTR框架的有效性,研究团队进行了大量的实验。实验结果表明,TTR在多个任务上均取得了优异的性能,包括反应动作生成质量测评、分类准确率等方面。尤其值得一提的是,TTR的Frechet Inception Distance (FID) 仅为 1.942,远低于其他模型。用户研究也表明,受试者更偏好TTR生成的动作,尤其是在较长时间序列的场景中。
研究意义与未来展望
TTR框架的提出,为人工智能在理解和模拟人类行为方面开辟了新的道路。它不仅可以应用于人机交互领域,还可以为虚拟现实、游戏等领域提供更自然、更真实的互动体验。
该研究的通讯作者,人大高瓴长聘副教授宋睿华表示,未来团队将继续深入研究多模态感知、生成与交互,探索人工智能在理解和模拟人类行为方面的更多可能性。
参考文献:
- 论文链接:https://openreview.net/pdf?id=UxzKcIZedp
- 项目链接:Think-Then-React.github.io
致谢:
感谢中国人民大学高瓴人工智能学院谭文辉博士生(导师:宋睿华长聘副教授)提供的信息和资料。
分析与评论:
这项研究的亮点在于其创新性的框架设计和实验结果。TTR框架通过结合预训练大语言模型和运动编码器,实现了对人类行为的更深入理解和更准确预测。然而,该研究也存在一些局限性。例如,TTR框架主要关注的是简单的互动动作,对于更复杂、更微妙的人类行为,可能还需要进一步的研究。此外,该框架的训练数据主要来自于实验室环境,在真实世界中的应用效果还有待验证。
总的来说,人大高瓴团队的这项研究为人工智能在理解和模拟人类行为方面迈出了重要一步。随着技术的不断发展,我们有理由相信,未来的人工智能将能够更好地理解我们的意图,并与我们进行更自然、更有效的互动。
[完]
Views: 0