合成数据加速视频生成，上海AI Lab开源AccVideo

上海，[日期] – 扩散模型在视频生成领域表现出色，但其高计算成本和耗时一直是瓶颈。为了解决这一问题，上海AI Lab推出了一项创新性的解决方案——AccVideo，一种利用合成数据集加速视频扩散模型的高效蒸馏方法。

据了解，AccVideo相较于其教师模型HunyuanVideo，在保持相当性能的同时，实现了高达8.5倍的生成速度提升。更令人瞩目的是，该模型仅需8块A100显卡和3.84万条合成数据，经过12天的训练，即可生成高质量的5秒、720×1280、24fps的视频。

在深入研究AccVideo之前，研究人员首先对现有蒸馏扩散模型的方法进行了细致的分析。他们发现，现有方法通常需要前向扩散来计算蒸馏数据点，但由于数据集不匹配或高斯噪声不匹配等问题，计算出来的数据点可能是无用的，从而导致教师模型为学生模型提供不可靠的指导，影响模型的蒸馏效率和生成结果。

AccVideo旨在通过蒸馏预训练视频扩散模型（HunyuanVideo）来减少推理步数，从而加速视频生成。为了避免无效数据点的使用，AccVideo采用了以下关键策略：

合成视频数据集（SynVid）： 利用教师模型生成高质量合成视频及其去噪轨迹。该数据集包含合成视频、潜在空间中的去噪轨迹以及对应的文本提示。SynVid中的数据点都是通向正确视频的中间结果，具有有效性和意义，有助于高效蒸馏并显著减少对数据量的需求。
基于轨迹的少步指导机制： 学生模型从教师模型生成的去噪轨迹中学习，以更少的推理步数生成视频。通过学习高斯噪声到视频潜在编码的更短路径，学生模型显著减少了推理步数。
对抗训练策略： 为了充分释放合成数据集中的知识并提升学生模型的性能，AccVideo采用了一种对抗训练策略，以最小化对抗散度。该策略避免了现有方法中常用的前向扩散操作，从而防止了对无用数据点进行蒸馏。

AccVideo一经推出，便受到了包括Reddit等在内的社区广泛关注，目前已经集成ComfyUI，并且支持Lora。

Reddit 讨论链接：https://www.reddit.com/r/StableDiffusion/comments/1jnb5rt/accvideo_85x_faster_than_hunyuan/

AccVideo的成功表明，合成数据在加速视频生成领域具有巨大的潜力。随着技术的不断发展，我们有理由相信，未来的视频生成将更加高效、便捷，并为各行各业带来更多的创新应用。

参考文献：