上海,[日期] – 扩散模型在视频生成领域表现出色,但其高计算成本和耗时一直是瓶颈。为了解决这一问题,上海AI Lab推出了一项创新性的解决方案——AccVideo,一种利用合成数据集加速视频扩散模型的高效蒸馏方法。
据了解,AccVideo相较于其教师模型HunyuanVideo,在保持相当性能的同时,实现了高达8.5倍的生成速度提升。更令人瞩目的是,该模型仅需8块A100显卡和3.84万条合成数据,经过12天的训练,即可生成高质量的5秒、720×1280、24fps的视频。
- 开源链接:https://github.com/aejion/AccVideo
- 项目主页:https://aejion.github.io/accvideo
- 论文链接:https://arxiv.org/abs/2503.19462
现有蒸馏方法的局限性
在深入研究AccVideo之前,研究人员首先对现有蒸馏扩散模型的方法进行了细致的分析。他们发现,现有方法通常需要前向扩散来计算蒸馏数据点,但由于数据集不匹配或高斯噪声不匹配等问题,计算出来的数据点可能是无用的,从而导致教师模型为学生模型提供不可靠的指导,影响模型的蒸馏效率和生成结果。
AccVideo的核心创新
AccVideo旨在通过蒸馏预训练视频扩散模型(HunyuanVideo)来减少推理步数,从而加速视频生成。为了避免无效数据点的使用,AccVideo采用了以下关键策略:
- 合成视频数据集(SynVid): 利用教师模型生成高质量合成视频及其去噪轨迹。该数据集包含合成视频、潜在空间中的去噪轨迹以及对应的文本提示。SynVid中的数据点都是通向正确视频的中间结果,具有有效性和意义,有助于高效蒸馏并显著减少对数据量的需求。
- 基于轨迹的少步指导机制: 学生模型从教师模型生成的去噪轨迹中学习,以更少的推理步数生成视频。通过学习高斯噪声到视频潜在编码的更短路径,学生模型显著减少了推理步数。
- 对抗训练策略: 为了充分释放合成数据集中的知识并提升学生模型的性能,AccVideo采用了一种对抗训练策略,以最小化对抗散度。该策略避免了现有方法中常用的前向扩散操作,从而防止了对无用数据点进行蒸馏。
社区反响与未来展望
AccVideo一经推出,便受到了包括Reddit等在内的社区广泛关注,目前已经集成ComfyUI,并且支持Lora。
- Reddit 讨论链接:https://www.reddit.com/r/StableDiffusion/comments/1jnb5rt/accvideo_85x_faster_than_hunyuan/
AccVideo的成功表明,合成数据在加速视频生成领域具有巨大的潜力。随着技术的不断发展,我们有理由相信,未来的视频生成将更加高效、便捷,并为各行各业带来更多的创新应用。
参考文献:
- [1] HunyuanVideo
- [2] VideoCrafter2
- [3] T2V-Turbo-V2
Views: 0