类Sora模型到底懂不懂物理?字节跳动实验揭示真相,杨立昆点赞!
北京,2024年11月8日 – 近年来,随着人工智能技术的飞速发展,视频生成模型如雨后春笋般涌现,其中OpenAI发布的Sora模型更是凭借其惊人的生成能力引发了广泛关注。然而,这些模型是否真正理解了物理规律,成为了业界热议的话题。近日,字节跳动豆包大模型团队公布了一项历时8个月的系统性研究,首次对视频生成模型的物理理解能力进行了深入探索,并给出了明确结论:视频生成模型可以记忆训练案例,但暂时还无法真正理解物理规律,做到“举一反三”。
这项研究成果引起了图灵奖得主、Meta首席AI科学家杨立昆的关注,他在社交媒体上点赞并转发了该研究,并表示:“结论不令人意外,但很高兴终于有人做了这个尝试!”
“抄作业”的学生:视频生成模型的物理理解局限性
豆包大模型视觉团队的研究人员通过专门开发的物理引擎,合成了匀速直线运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流DiT架构的视频生成模型。随后,他们通过检验模型后续生成的视频是否符合力学定律,来判断模型是否真正理解了物理规律。
实验结果表明,即使遵循“Scaling Law”增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正“理解”。以最简单的匀速直线运动为例,当模型学习了不同速度下小球保持匀速直线运动的训练数据后,给定初始几帧,要求模型生成小球在训练集速度区间内匀速直线运动的视频,随着模型参数和训练数据量的增加,生成的视频逐渐更符合物理规律。
然而,当要求模型生成未曾见过的速度区间(即超出训练数据范围)的运动视频时,模型突然不再遵循物理规律,并且无论如何增加模型参数或训练数据,生成的结果都没有显著改进。这表明,视频生成模型无法真正理解物理规律,也无法将这些规律泛化应用到全新的场景中。
“记忆”与“理解”:模型能力的本质区别
研究团队通过进一步的实验分析,得出结论:“生成新视频时,模型主要依赖对训练案例的记忆和匹配。视频生成模型就像一个只会‘抄作业’的学生,一旦遇到从未见过的场景,如不同大小、速度的物体相互作用,就会‘犯迷糊’,生成结果与物理规则不符。”
未来展望:提升模型物理理解能力的探索
尽管研究结果表明,目前的视频生成模型还无法真正理解物理规律,但研究中也发现了一个好消息:如果训练视频中所有概念和物体都是模型已熟悉的,此时加大训练视频的复杂度,比如组合增加物体间的物理交互,通过加大训练数据,模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。
年轻团队的探索与突破
值得一提的是,本研究的两位核心一作都非常年轻,一位是95后,一位是00后,他们在豆包大模型团队专注视觉领域的基础研究工作。作者们一直对世界模型感兴趣,在8个月的探索中,他们阅读了大量物理学研究文献,也尝试从游戏中获得研发灵感,历经多次失败后,最终一步步确定研究思路和实验方法。
字节跳动在大模型领域的持续投入
近年来,字节跳动在大模型领域不断加大投入,底层研究、基础模型、AI应用均有亮眼产出。此次研究成果的发布,再次展现了字节跳动在人工智能领域的深厚实力和对基础研究的重视。
结语
字节跳动豆包大模型团队的这项研究,为我们揭示了视频生成模型在物理理解能力方面的局限性,也为未来研究方向指明了道路。相信随着技术的不断发展,视频生成模型将能够更好地理解物理规律,生成更加逼真、符合现实世界的视频内容,为我们带来更加丰富多彩的体验。
相关链接:
- 研究论文链接:https://arxiv.org/pdf/2411.02385
- 研究成果网站:https://phyworld.github.io/#combo_gen
Views: 0