13款Sora竞品大比拼：谁是视频生成之王？

实测13个类Sora视频生成模型，8000多个案例，一次看个够：视频生成领域的“黎明曙光”

引言

近年来，人工智能技术飞速发展，视频生成领域也迎来了新的突破。以Sora为代表的类Sora视频生成模型，凭借其强大的生成能力，正在改变着我们对视频创作的认知。最近，腾讯AI Lab联合中科大发布了一份针对类Sora视频生成模型的测评报告，对13个主流模型进行了全面的评估，生成了超过8000个视频案例，为我们揭示了视频生成领域的“黎明曙光”。

深入研究

这份测评报告聚焦于目前最前沿的类Sora DiT架构的高质量视频生成闭源模型、产品以及部分开源模型。研究团队从多个维度系统地设计了700多个生成提示词和图片，涵盖了从文生视频（T2V）、图生视频（I2V）以及视频到视频（V2V）生成模型全面能力评估。

测评结果

测评结果显示，类Sora视频生成模型在画质、动作自然度和多样性、视觉-语言对齐以及控制精度等方面都取得了显著进步，相较于之前的Stable Diffusion类的视频模型有了质的飞跃。

测评亮点

多模型对比可视化展示： 报告以多模型对比可视化地形式直观展示生成效果，帮助读者更好地理解现在模型的能力与不足。
强调人眼观感的重要性： 报告强调了人眼观感的重要性，将所有生成结果公开，并将持续更新，成为新的视频生成基准。
垂直领域应用探索： 报告深入探讨了模型在垂直领域中的应用，包括以人为中心的视频生成、机器人、动画插帧、自动驾驶、世界模型、相机可控的视频生成等领域的垂类模型的深入对比。
开源模型与闭源模型的差距： 报告深入比较了开源和闭源模型，指出目前开源模型的性能还远远不足，强调了差距尤其体现在训练资源、模型规模、数据质量与数量等方面。
未来研究方向： 报告详细列举了视频生成领域面临的挑战和介绍未来的研究方向，包括复杂动作理解与生成、概念理解、交互视频生成、个性化生成、多语种文本生成、多模态视频生成、以及提出持续可改进的视频生成模型等前沿探索性问题。

结论

这份测评报告为我们展现了类Sora视频生成模型的强大潜力，也为视频生成领域的未来发展指明了方向。随着技术的不断进步，我们相信视频生成技术将更加成熟，并将在广告电商、动漫、影视、短视频、教育等多个领域得到广泛应用。

参考文献