VBench-2.0：AI视频生成评测新标杆

上海，2024年3月28日 – 近日，随着AI视频生成技术的飞速发展，南洋理工大学S-Lab与上海人工智能实验室联合推出了VBench-2.0，这一全新的评测框架旨在引领视频生成技术从追求“表面真实性”向关注“内在真实性”转变。该框架的发布，标志着AI视频生成领域对模型理解世界能力的关注进入了新的阶段。

自2024年初Sora问世以来，AI生成视频的逼真程度令人惊叹，吸引了众多高校实验室、互联网巨头以及创业公司纷纷入局。然而，在视觉效果突飞猛进的同时，业界也开始反思：视频生成的下一步该如何发展？仅仅追求“看起来逼真”是否足够？

初代VBench作为业内权威的视频生成评测体系，主要关注视频的视觉观感，例如清晰度、流畅度以及与文本描述的一致性，即“表面真实性”。然而，要实现AI辅助电影制作、复杂场景模拟等更高层次的应用，视频不仅要“看起来逼真”，更需要具备对物理规律、常识推理、人体解剖、场景组合等世界模型层面的深度理解，也就是“内在真实性”。

VBench-2.0正是在这样的背景下应运而生。它在继承VBench-1.0对“表面真实性”关注的基础上，进一步强调以下关键评测维度：

人体动作与结构 (Human Fidelity)： 评估模型生成的人体动作是否连贯，是否符合人体解剖常识。
可控性 (Controllability)： 考察模型能否精确执行用户指令，例如相机运动、人物位置等微调效果。
创造性 (Creativity)： 观察模型在场景组合和故事情节拓展方面的想象力。
物理规律 (Physics)： 评估模型生成的浮力、重力、碰撞等效果是否合理，是否符合物理定律。
常识推理 (Commonsense)： 考察模型在日常情景或逻辑推断中是否展现出合理性，例如“吃东西”时食物是否真的进入口中，角色行为是否合乎常理。

VBench-2.0针对以上维度提出了大量的精细化测评场景与自动化评估策略，并与真实人类打分结果进行了大规模对照，以确保评测结果的可靠性。

该评测体系采用双剑合璧的方式，VBench-1.0适用于评估视频生成的“表面真实性”，而VBench-2.0则深入探讨模型在物理、常识、复杂行为等领域的表现。研究者可以同时使用两者对模型进行评估，从而更好地理解模型的实际潜力。

值得注意的是，在VBench-2.0的“内在真实性”评测中，并未出现明显的“开源或闭源即占绝对优势”的现象。许多社区开源项目在复杂场景中表现出色，证明技术进步依赖社区共建是完全可行的。

目前，VBench-2.0已全面开源，旨在鼓励研究者测试并对比感兴趣的模型，并期待来自社区的反馈与建议，共同推动AI视频生成生态的成长和进化。

相关链接：

论文链接：https://arxiv.org/abs/2503.21755
视频：https://www.youtube.com/watch?v=kJrzKy9tgAc
代码：https://github.com/Vchitect/VBench
网页：https://github.com/Vchitect/VBench-2.0-project
Prompt List：https://github.com/Vchit

分析：

VBench-2.0的发布，反映了AI视频生成领域发展的新趋势，即从单纯追求视觉效果向关注模型对世界的理解能力转变。这一转变对于AI视频生成技术的长期发展至关重要，它将推动模型在更复杂、更真实的场景中应用，并最终实现AI辅助电影制作等高级应用。同时，VBench-2.0的开源模式，也将促进社区的参与和创新，加速AI视频生成技术的进步。

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

VBench-2.0：AI视频生成评测新标杆

作者智能小编

相关文章

DeepSeek Manus & AI Agents State of the Art + 51-Page PPT

Git Mastery Conquer 8 Common Scenarios with This 25000-Word Guide!

Git操作实用指南：8场景问题全解析

发表回复取消回复

为您推荐