清华Video-T1：视频生成性能Scaling新突破！

北京 – 人工智能领域正在视频生成方向迎来一项重大突破。清华大学与腾讯的研究团队联合推出了一种名为Video-T1的创新方法，首次将“测试时Scaling”（Test-Time Scaling，TTS）引入视频生成领域。这项技术无需重新训练模型，即可显著提升视频生成质量，为AI理解和模拟现实世界开辟了新的可能性。

视频作为富含时空信息和语义的媒介，对于人工智能的理解至关重要。然而，传统的视频生成模型往往依赖于增大模型参数量和预训练数据，这不仅需要大量的计算资源，也限制了其应用范围。受到大型语言模型（LLM）中TTS技术的启发，清华大学和腾讯的研究团队探索了在视频生成中应用TTS的可能性，并取得了令人瞩目的成果。

该研究表明，通过增加推理阶段的计算，可以显著提高视频生成的质量。在VBench基准测试中，Video-T1实现了最高5.86%的总分提升，并且模型能力随着推理阶段选取的样本数目增加而增长，体现出持续Scale Up的特性。这一突破打破了传统方式Scaling up视频模型需要大量资源重新训练或显著扩大模型规模的局限性。

研究团队创新性地将视频生成中的TTS问题建模为从高斯噪声空间到目标视频分布的轨迹搜索问题，为优化视频生成引入了新的理论框架。他们还构造了随机线性搜索作为TTS的基础实现方式，即随机取样多个视频生成样本，利用视觉语言模型（VLM）进行评分，选出最优的视频样本作为输出。

然而，随机线性搜索的复杂度较高，需要较多的推理时计算。为了提高搜索速度和视频质量，研究团队提出了“帧树”（Tree-of-Frames, ToF）方法。该方法通过自适应扩展和修剪视频分支，在计算成本与生成质量间实现动态平衡。类似于在推理模型中使用score model，研究团队提出使用测试时验证器（test-time verifiers）评估中间结果质量，并结合启发式算法高效导航搜索空间，在视频生成的适当位置进行评估，选取符合要求的生成轨迹，显著提升生成效率和质量。

实验结果表明，相比于直接进行随机线性搜索，Tree-of-Frames方法能够在取得相同效果的情况下显著提高搜索效率，降低视频模型的推理计算需求。研究团队通过比较不同TTS方法和不同样本数量对应的Number of Function Evaluations (NFE)及对应的表现，发现使用Tree-of-Frames方法能够在相同NFE的情况下更为显著地提高视频表现。

此外，研究团队还注意到首帧对于视频整体是否对齐影响较大，视频的前中后部分存在一定程度不同的提示词对齐需求。因此，他们利用单帧的图片生成思维链 (Image Generation Chain-of-Thought) 和层次化提示词 (Hierarchical Prompting) 等方法，对帧的生成和提示词对齐进行增强，构建了Tree-of-Frames总体流程。

目前，Video-T1的代码已经开源，研究团队欢迎感兴趣的研究者和开发者共同探索视频和多模态生成。这项研究的开源，无疑将加速视频生成领域的发展，并为更广泛的AI应用带来新的可能性。

参考文献：

论文标题：Video-T1: Test-Time Scaling for Video Generation
论文地址：https://arxiv.org/pdf/2503.18942
Github 仓库: https://github.com/liuff19/Video-T1
项目主页: https://liuff19.github.io/Video-T1/

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

清华Video-T1：视频生成性能Scaling新突破！

作者智能小编

相关文章

陈春花：智能寻捷径，智慧照亮生命

智谱AI CEO：大模型领域存在“反共识”

语音交互：AI应用新王牌，巨头B2C掉队？

发表回复取消回复

为您推荐