Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

上海,[日期] – 扩散模型在视频生成领域表现出色,但其高计算成本和耗时一直是瓶颈。为了解决这一问题,上海AI Lab推出了一项创新性的解决方案——AccVideo,一种利用合成数据集加速视频扩散模型的高效蒸馏方法。

据了解,AccVideo相较于其教师模型HunyuanVideo,在保持相当性能的同时,实现了高达8.5倍的生成速度提升。更令人瞩目的是,该模型仅需8块A100显卡和3.84万条合成数据,经过12天的训练,即可生成高质量的5秒、720×1280、24fps的视频。

现有蒸馏方法的局限性

在深入研究AccVideo之前,研究人员首先对现有蒸馏扩散模型的方法进行了细致的分析。他们发现,现有方法通常需要前向扩散来计算蒸馏数据点,但由于数据集不匹配或高斯噪声不匹配等问题,计算出来的数据点可能是无用的,从而导致教师模型为学生模型提供不可靠的指导,影响模型的蒸馏效率和生成结果。

AccVideo的核心创新

AccVideo旨在通过蒸馏预训练视频扩散模型(HunyuanVideo)来减少推理步数,从而加速视频生成。为了避免无效数据点的使用,AccVideo采用了以下关键策略:

  1. 合成视频数据集(SynVid): 利用教师模型生成高质量合成视频及其去噪轨迹。该数据集包含合成视频、潜在空间中的去噪轨迹以及对应的文本提示。SynVid中的数据点都是通向正确视频的中间结果,具有有效性和意义,有助于高效蒸馏并显著减少对数据量的需求。
  2. 基于轨迹的少步指导机制: 学生模型从教师模型生成的去噪轨迹中学习,以更少的推理步数生成视频。通过学习高斯噪声到视频潜在编码的更短路径,学生模型显著减少了推理步数。
  3. 对抗训练策略: 为了充分释放合成数据集中的知识并提升学生模型的性能,AccVideo采用了一种对抗训练策略,以最小化对抗散度。该策略避免了现有方法中常用的前向扩散操作,从而防止了对无用数据点进行蒸馏。

社区反响与未来展望

AccVideo一经推出,便受到了包括Reddit等在内的社区广泛关注,目前已经集成ComfyUI,并且支持Lora。

AccVideo的成功表明,合成数据在加速视频生成领域具有巨大的潜力。随着技术的不断发展,我们有理由相信,未来的视频生成将更加高效、便捷,并为各行各业带来更多的创新应用。

参考文献:

  • [1] HunyuanVideo
  • [2] VideoCrafter2
  • [3] T2V-Turbo-V2


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注