Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

上海的陆家嘴
0

北京 – 人工智能领域正在视频生成方向迎来一项重大突破。清华大学与腾讯的研究团队联合推出了一种名为Video-T1的创新方法,首次将“测试时Scaling”(Test-Time Scaling,TTS)引入视频生成领域。这项技术无需重新训练模型,即可显著提升视频生成质量,为AI理解和模拟现实世界开辟了新的可能性。

视频作为富含时空信息和语义的媒介,对于人工智能的理解至关重要。然而,传统的视频生成模型往往依赖于增大模型参数量和预训练数据,这不仅需要大量的计算资源,也限制了其应用范围。受到大型语言模型(LLM)中TTS技术的启发,清华大学和腾讯的研究团队探索了在视频生成中应用TTS的可能性,并取得了令人瞩目的成果。

该研究表明,通过增加推理阶段的计算,可以显著提高视频生成的质量。在VBench基准测试中,Video-T1实现了最高5.86%的总分提升,并且模型能力随着推理阶段选取的样本数目增加而增长,体现出持续Scale Up的特性。这一突破打破了传统方式Scaling up视频模型需要大量资源重新训练或显著扩大模型规模的局限性。

研究团队创新性地将视频生成中的TTS问题建模为从高斯噪声空间到目标视频分布的轨迹搜索问题,为优化视频生成引入了新的理论框架。他们还构造了随机线性搜索作为TTS的基础实现方式,即随机取样多个视频生成样本,利用视觉语言模型(VLM)进行评分,选出最优的视频样本作为输出。

然而,随机线性搜索的复杂度较高,需要较多的推理时计算。为了提高搜索速度和视频质量,研究团队提出了“帧树”(Tree-of-Frames, ToF)方法。该方法通过自适应扩展和修剪视频分支,在计算成本与生成质量间实现动态平衡。类似于在推理模型中使用score model,研究团队提出使用测试时验证器(test-time verifiers)评估中间结果质量,并结合启发式算法高效导航搜索空间,在视频生成的适当位置进行评估,选取符合要求的生成轨迹,显著提升生成效率和质量。

实验结果表明,相比于直接进行随机线性搜索,Tree-of-Frames方法能够在取得相同效果的情况下显著提高搜索效率,降低视频模型的推理计算需求。研究团队通过比较不同TTS方法和不同样本数量对应的Number of Function Evaluations (NFE)及对应的表现,发现使用Tree-of-Frames方法能够在相同NFE的情况下更为显著地提高视频表现。

此外,研究团队还注意到首帧对于视频整体是否对齐影响较大,视频的前中后部分存在一定程度不同的提示词对齐需求。因此,他们利用单帧的图片生成思维链 (Image Generation Chain-of-Thought) 和层次化提示词 (Hierarchical Prompting) 等方法,对帧的生成和提示词对齐进行增强,构建了Tree-of-Frames总体流程。

目前,Video-T1的代码已经开源,研究团队欢迎感兴趣的研究者和开发者共同探索视频和多模态生成。这项研究的开源,无疑将加速视频生成领域的发展,并为更广泛的AI应用带来新的可能性。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注