阿里与华东师大联合推出AI视频长度扩展调优技术ExVideo,助力视频生成更长更流畅
上海,2024年8月28日 – 阿里巴巴与华东师范大学合作开发了一种名为ExVideo的AI视频长度扩展调优技术,能够有效地扩展现有视频合成模型的时间尺度,生成更长、帧数更多的视频,同时保持原始模型的生成能力。这一突破性技术有望为视频生成领域带来新的可能性,并推动视频内容创作的效率和质量提升。
ExVideo的核心技术在于对视频合成模型进行“后调优”。该技术并非从头开始训练一个全新的模型,而是基于现有的视频合成模型,例如Stable Video Diffusion,对其特定部分进行再训练,从而实现时间尺度的扩展。这种“后调优”策略不仅提高了效率,还保留了模型对各种输入的泛化能力,使得生成的视频更加多样化和适应性强。
ExVideo在时间模块的扩展方面也取得了突破。该技术通过优化3D卷积、时间注意力和位置嵌入等时间模块,使模型能够处理更长时间跨度的内容。具体而言,ExVideo保留了原始模型中的3D卷积层,因为它们能够适应不同的时间尺度,而无需额外的微调。同时,ExVideo对时间注意力模块进行了微调,帮助模型更好地理解视频内容的时间连贯性。此外,ExVideo还对位置嵌入进行了优化,以适应更长的视频序列。
ExVideo的优势在于:
- 时间尺度扩展: ExVideo能够生成具有更多帧的视频,从而讲述更完整的故事或展示更长时间的动态场景。
- 后调优策略: ExVideo的“后调优”策略能够使现有模型生成更长的视频,同时保持模型的生成能力。
- 参数高效: ExVideo采用“后调优”策略,无需从头开始训练,显著减少了所需的计算资源。
- 保持生成能力: ExVideo生成的视频不仅在时间上有所延长,而且在视觉连贯性、清晰度和整体质量上也能满足高标准。
- 兼容性和通用性: ExVideo能够与多种视频合成模型兼容,使其能够广泛应用于不同的视频生成任务。
ExVideo的推出将为视频生成领域带来巨大的影响。它将帮助创作者生成更长、更具吸引力的视频内容,并推动视频内容创作的效率和质量提升。此外,ExVideo还有望在电影、游戏、教育等领域得到广泛应用。
ExVideo的官方项目主页: https://ecnu-cilab.github.io/ExVideoProjectPage/
ExVideo的GitHub代码库: https://github.com/modelscope/DiffSynth-Studio
ExVideo的Hugging Face模型下载: https://huggingface.co/ECNU-CILab/ExVideo-SVD-128f-v1
ExVideo的ModelScope模型下载: https://www.modelscope.cn/models/ECNU-CILab/ExVideo-SVD-128f-v1/summary
ExVideo的技术论文: https://arxiv.org/abs/2406.14130
结语: ExVideo的出现标志着AI视频生成技术取得了新的突破。相信随着技术的不断发展,AI视频生成技术将更加成熟,并为我们带来更加精彩的视频内容。
【source】https://ai-bot.cn/exvideo-model/
Views: 1