北京 – 人工智能领域正在视频生成方向迎来一项重大突破。清华大学与腾讯的研究团队联合推出了一种名为Video-T1的创新方法,首次将“测试时Scaling”(Test-Time Scaling,TTS)引入视频生成领域。这项技术无需重新训练模型,即可显著提升视频生成质量,为AI理解和模拟现实世界开辟了新的可能性。
视频作为富含时空信息和语义的媒介,对于人工智能的理解至关重要。然而,传统的视频生成模型往往依赖于增大模型参数量和预训练数据,这不仅需要大量的计算资源,也限制了其应用范围。受到大型语言模型(LLM)中TTS技术的启发,清华大学和腾讯的研究团队探索了在视频生成中应用TTS的可能性,并取得了令人瞩目的成果。
该研究表明,通过增加推理阶段的计算,可以显著提高视频生成的质量。在VBench基准测试中,Video-T1实现了最高5.86%的总分提升,并且模型能力随着推理阶段选取的样本数目增加而增长,体现出持续Scale Up的特性。这一突破打破了传统方式Scaling up视频模型需要大量资源重新训练或显著扩大模型规模的局限性。
研究团队创新性地将视频生成中的TTS问题建模为从高斯噪声空间到目标视频分布的轨迹搜索问题,为优化视频生成引入了新的理论框架。他们还构造了随机线性搜索作为TTS的基础实现方式,即随机取样多个视频生成样本,利用视觉语言模型(VLM)进行评分,选出最优的视频样本作为输出。
然而,随机线性搜索的复杂度较高,需要较多的推理时计算。为了提高搜索速度和视频质量,研究团队提出了“帧树”(Tree-of-Frames, ToF)方法。该方法通过自适应扩展和修剪视频分支,在计算成本与生成质量间实现动态平衡。类似于在推理模型中使用score model,研究团队提出使用测试时验证器(test-time verifiers)评估中间结果质量,并结合启发式算法高效导航搜索空间,在视频生成的适当位置进行评估,选取符合要求的生成轨迹,显著提升生成效率和质量。
实验结果表明,相比于直接进行随机线性搜索,Tree-of-Frames方法能够在取得相同效果的情况下显著提高搜索效率,降低视频模型的推理计算需求。研究团队通过比较不同TTS方法和不同样本数量对应的Number of Function Evaluations (NFE)及对应的表现,发现使用Tree-of-Frames方法能够在相同NFE的情况下更为显著地提高视频表现。
此外,研究团队还注意到首帧对于视频整体是否对齐影响较大,视频的前中后部分存在一定程度不同的提示词对齐需求。因此,他们利用单帧的图片生成思维链 (Image Generation Chain-of-Thought) 和层次化提示词 (Hierarchical Prompting) 等方法,对帧的生成和提示词对齐进行增强,构建了Tree-of-Frames总体流程。
目前,Video-T1的代码已经开源,研究团队欢迎感兴趣的研究者和开发者共同探索视频和多模态生成。这项研究的开源,无疑将加速视频生成领域的发展,并为更广泛的AI应用带来新的可能性。
参考文献:
- 论文标题:Video-T1: Test-Time Scaling for Video Generation
- 论文地址:https://arxiv.org/pdf/2503.18942
- Github 仓库: https://github.com/liuff19/Video-T1
- 项目主页: https://liuff19.github.io/Video-T1/
Views: 0