阿里开源基于扩散模型的人类视频生成框架DreaMoving,助力个性化视频内容创作
北京,2024年2月20日 – 阿里巴巴集团研究团队近日开源了基于扩散模型的人类视频生成框架DreaMoving,为个性化视频内容创作提供了新的可能性。该框架能够根据用户提供的目标身份和姿势序列,生成相应的人物移动或跳舞的视频,满足个性化视频内容的制作需求。
DreaMoving的诞生源于对高质量定制化人类视频生成的追求。传统的人类视频生成方法往往受限于数据量和模型复杂度,难以生成具有高度可控性和真实感的视频内容。DreaMoving则通过引入视频控制网络和内容引导器,突破了这一限制,实现了对人物动作和外观的精确控制。
DreaMoving的核心功能和技术亮点:
- 定制化视频生成: 用户可以根据自己的需求,输入目标身份和姿势序列,生成相应的人物移动或跳舞的视频。
- 高度可控性: 视频控制网络(Video ControlNet)可以精确控制视频中人物的动作细节,确保生成的视频具有高度的时间一致性和运动真实性。
- 身份保持: 内容引导器(Content Guider)能够保持视频中人物的身份特征,如面部和服装,确保生成的视频与目标身份高度吻合。
- 多样化的输入方式: 用户可以通过文本提示、图像提示或二者结合的方式来指导视频的生成,提供了灵活的创作方式。
- 易于使用和适配: DreaMoving设计简洁,易于操作,并且可以适配多种风格化的扩散模型,以生成风格多样的视频结果。
DreaMoving的技术架构:
DreaMoving的架构建立在Stable Diffusion模型的基础上,主要由三个核心部分组成:
- 去噪U-Net: 作为DreaMoving的基础网络,负责视频的生成过程。去噪U-Net通过迭代去噪的方式,逐步从噪声中恢复出清晰的视频帧。
- 视频控制网络(Video ControlNet): 该网络专门负责控制视频中人物的运动。它作为一个插件模块,与去噪U-Net结合使用,通过处理姿势或深度序列来控制人物的动作。
- 内容引导器(Content Guider): 内容引导器的目的是保持视频中人物的身份特征,如面部和服装。它使用图像编码器来精确地引导人物的外观,同时结合文本提示来生成背景内容。
这三个网络协同工作,使得DreaMoving能够生成既具有个性化身份特征又具有精确运动控制的高质量人类视频。此外,DreaMoving的架构设计使其易于使用和适配,能够与多种风格化的扩散模型结合,以产生多样化的视频生成结果。
DreaMoving的应用场景:
DreaMoving的应用场景十分广泛,例如:
- 电影和电视制作: 生成高质量的虚拟角色,丰富电影和电视的视觉效果。
- 游戏开发: 生成逼真的游戏角色动画,提升游戏体验。
- 广告和营销: 生成个性化的视频广告,吸引目标受众。
- 教育和培训: 生成生动的教学视频,提高学习效率。
DreaMoving的开源将为视频内容创作领域带来新的变革,为用户提供更便捷、更灵活的视频生成工具,推动个性化视频内容创作的蓬勃发展。
相关链接:
- 官方项目主页: https://dreamoving.github.io/dreamoving/
- arXiv研究论文: https://arxiv.org/abs/2312.05107
- GitHub地址: https://github.com/dreamoving/dreamoving-project
- ModelScope魔搭社区: https://www.modelscope.cn/studios/vigen/video_generation/summary
- Hugging Face Demo: https://huggingface.co/spaces/jiayong/Dreamoving
【source】https://ai-bot.cn/dreamoving/
Views: 1