上海,2024年3月28日 – 近日,随着AI视频生成技术的飞速发展,南洋理工大学S-Lab与上海人工智能实验室联合推出了VBench-2.0,这一全新的评测框架旨在引领视频生成技术从追求“表面真实性”向关注“内在真实性”转变。该框架的发布,标志着AI视频生成领域对模型理解世界能力的关注进入了新的阶段。
自2024年初Sora问世以来,AI生成视频的逼真程度令人惊叹,吸引了众多高校实验室、互联网巨头以及创业公司纷纷入局。然而,在视觉效果突飞猛进的同时,业界也开始反思:视频生成的下一步该如何发展?仅仅追求“看起来逼真”是否足够?
初代VBench作为业内权威的视频生成评测体系,主要关注视频的视觉观感,例如清晰度、流畅度以及与文本描述的一致性,即“表面真实性”。然而,要实现AI辅助电影制作、复杂场景模拟等更高层次的应用,视频不仅要“看起来逼真”,更需要具备对物理规律、常识推理、人体解剖、场景组合等世界模型层面的深度理解,也就是“内在真实性”。
VBench-2.0正是在这样的背景下应运而生。它在继承VBench-1.0对“表面真实性”关注的基础上,进一步强调以下关键评测维度:
- 人体动作与结构 (Human Fidelity): 评估模型生成的人体动作是否连贯,是否符合人体解剖常识。
- 可控性 (Controllability): 考察模型能否精确执行用户指令,例如相机运动、人物位置等微调效果。
- 创造性 (Creativity): 观察模型在场景组合和故事情节拓展方面的想象力。
- 物理规律 (Physics): 评估模型生成的浮力、重力、碰撞等效果是否合理,是否符合物理定律。
- 常识推理 (Commonsense): 考察模型在日常情景或逻辑推断中是否展现出合理性,例如“吃东西”时食物是否真的进入口中,角色行为是否合乎常理。
VBench-2.0针对以上维度提出了大量的精细化测评场景与自动化评估策略,并与真实人类打分结果进行了大规模对照,以确保评测结果的可靠性。
该评测体系采用双剑合璧的方式,VBench-1.0适用于评估视频生成的“表面真实性”,而VBench-2.0则深入探讨模型在物理、常识、复杂行为等领域的表现。研究者可以同时使用两者对模型进行评估,从而更好地理解模型的实际潜力。
值得注意的是,在VBench-2.0的“内在真实性”评测中,并未出现明显的“开源或闭源即占绝对优势”的现象。许多社区开源项目在复杂场景中表现出色,证明技术进步依赖社区共建是完全可行的。
目前,VBench-2.0已全面开源,旨在鼓励研究者测试并对比感兴趣的模型,并期待来自社区的反馈与建议,共同推动AI视频生成生态的成长和进化。
相关链接:
- 论文链接:https://arxiv.org/abs/2503.21755
- 视频:https://www.youtube.com/watch?v=kJrzKy9tgAc
- 代码:https://github.com/Vchitect/VBench
- 网页:https://github.com/Vchitect/VBench-2.0-project
- Prompt List:https://github.com/Vchit
分析:
VBench-2.0的发布,反映了AI视频生成领域发展的新趋势,即从单纯追求视觉效果向关注模型对世界的理解能力转变。这一转变对于AI视频生成技术的长期发展至关重要,它将推动模型在更复杂、更真实的场景中应用,并最终实现AI辅助电影制作等高级应用。同时,VBench-2.0的开源模式,也将促进社区的参与和创新,加速AI视频生成技术的进步。
Views: 0