LeCun 赞转!类 Sora 模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘

视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!

自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。Keras 之父 François Chollet 则认为,Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?这些问题至关重要,决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。最后他指出,不能简单地通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。

此后,关于视频生成模型到底有没有在学习、理解物理规律,业界始终没有一个定论。直到近日,字节豆包大模型团队公布的一项系统性研究,为两者之间的关系「划上了不等号」。该团队通过大规模实验发现 —— 即便依照 Scaling Law 扩大模型参数与训练数据量,模型依然无法抽象出一般物理规则,甚至连牛顿第一定律、抛物线运动都无法领会。「视频生成模型目前就像一个只会『抄作业』的学生,可以记忆案例,但还无法真正理解物理规律,做到『举一反三』。因此,模型遇到未学习过的场景就会『犯迷糊』,生成结果与物理规则不符。」研究作者表示。

相关推文在 X 发布后,获得 Yann LeCun 点赞转发,还评价道 —— 结果虽不意外,但有人尝试研究确实是一件好事。此外,CV 大牛谢赛宁和常年活跃的 Gary Marcus 等人也纷纷跟进关注。

论文标题:How Far is Video Generation from World Model: A Physical Law Perspective

论文链接:https://arxiv.org/abs/2411.02385

展示页面:https://phyworld.github.io

Sora 的世界里,物理学存在么?

此前 Sora 发布时,OpenAI 就在其宣传页面写道:我们的成果揭示了 —— 提升视频生成模型参数与数据量,为构建物理世界通用模拟器,提供了一条可行之路。给人希望的同时,业内质疑声纷至沓来,很多人并不认为基于 DiT 架构的视频生成模型能够真正理解物理规律。其中尤以 LeCun 为代表,一直以来,这位人工智能巨头一直坚称,基于概率的大语言模型无法理解常识,其中包括现实物理规律。

尽管大家众说纷纭,但市面上,系统性针对该问题的研究一直寥寥。出于对这一课题的好奇,字节豆包大模型相关团队于 2024 年初启动了这一研究立项,并历经 8 个月终于完成系统性实验。

原理与实验设计

在本次工作中,如何定量分析视频生成模型对于物理规律的理解,是一大挑战。豆包大模型团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流 DiT 架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有「世界模型」的潜力。

针对视频生成模型在学习物理定律时的泛化能力,团队探讨了下面三种场景的表现:

  • 分布内泛化 (In-Distribution, ID):指训练数据和测试数据来自同一分布。
  • 分布外泛化 (Out-of-Distribution, OOD) :分布外泛化指的是模型在面对从未见过的新场景时,是否能够将已学过的物理定律应用到未知的情境。
  • 组合泛化 (Combinatorial Generalization):组合泛化介于 ID 和 OOD 之间,此种情况下,训练数据已包含了所有「概念」或物体,但这些概念、物体并未以所有可能的组合或更复杂的形式出现。

在基于视频的观察中,每一帧代表一个时间点,物理定律的预测则对应于根据过去和现在的帧生成未来的帧。因此,团队在每个实验中都训练一个基于帧条件的视频生成模型,来模拟和预测物理现象的演变。通过测量生成视频每个帧(时间点)中物体位置变化,可判断其运动状态,进而与真实模拟的视频数据比对,判断生成内容是否符合经典物理学的方程表达。

实验设计方面,团队聚焦于由基本运动学方程支配的确定性任务。这些任务能清晰定义分布内(ID) 和分布外 (OOD) 泛化,并且能够进行直观的误差量化评估。团队选择了以下三种物理场景进行评估,每种运动由其初始帧决定:

  • 匀速直线运动:一个球水平移动,速度保持恒定,用于说明惯性定律。
  • 完美弹性碰撞:两个具有不同大小和速度的球水平相向运动并发生碰撞,体现了能量与动量守恒定律。
  • 抛物线运动:一个带有初始水平速度的球因重力作用下落,符合牛顿第二定律。

针对组合泛化场景,团队使用 PHYRE 模拟器评估模型的组合泛化能力。PHYRE 是一个二维模拟环境,其中包括球、罐子、杆子和墙壁等多个对象,它们可以是固定或动态的,且能进行碰撞、抛物线轨迹、旋转等复杂物理交互,但环境中的底层物理规律是确定性的。视频数据构造方面,每一个视频考虑了八种物体,包括两个动态灰色球、一组固定的黑色球、一个固定的黑色条形、一个动态条形、一组动态立式条形、一个动态罐子和一个动态立式棍子。每个任

实验结果表明,即使在训练数据量和模型参数规模不断增加的情况下,视频生成模型仍然无法理解物理规律。

结论:

字节豆包大模型团队的这项研究为我们揭示了视频生成模型在理解物理规律方面的局限性。尽管这些模型能够生成逼真的视频,但它们并没有真正理解物理世界。这项研究表明,仅仅依靠数据驱动的方法并不能完全解决这个问题。未来,我们需要探索新的方法,例如将物理知识融入模型训练过程,才能真正实现能够理解物理规律的视频生成模型。

参考文献:

注:

  • 本文根据机器之心报道和论文内容进行整理,并加入了一些个人理解和分析。
  • 为了更好地理解文章内容,建议读者阅读原始论文和相关报道。
  • 本文仅供参考,不代表任何机构的观点。


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注