上海的陆家嘴

阿里巴巴推出AI视频卡通化框架Diffutoon,赋能动画制作新纪元

北京,2024年2月15日 – 阿里巴巴联合华东师范大学的研究团队近日推出了一款名为Diffutoon的AI框架,该框架能够将现实风格的视频转换为卡通动漫风格,为动画制作领域带来了全新的可能性。

Diffutoon基于扩散模型,通过分解为风格化、一致性增强、结构引导和着色等子任务,实现了对视频的高分辨率和长时间渲染。该框架不仅能够将视频转换为卡通风格,还能根据文本提示对视频内容进行编辑,例如修改角色服装颜色、调整角色表情等,在保持高度视觉效果和一致性的同时,实现了对视频动画的高效、高质量处理。

Diffutoon的主要功能特色包括:

  • 卡通视频渲染: Diffutoon利用扩散模型将现实风格的视频转换成具有卡通或动漫风格的视频,实现视觉上的平面化和风格化效果。转换不仅包括颜色和纹理的变化,还涉及对光影、轮廓等元素的艺术化处理,以模仿手绘动画的视觉效果。
  • 高分辨率支持:Diffutoon能够处理高分辨率视频,支持至少1536×1536像素的分辨率,确保在放大或高清显示设备上也能保持清晰度和细节,适合高质量的视频制作和展示需求。
  • 视频编辑: 用户可以通过文本提示对视频内容进行编辑,Diffutoon能够识别并根据这些提示调整视频的特定部分。编辑功能支持对角色、场景元素的外观和属性进行修改,如更换服装颜色、调整角色表情等。
  • 帧间一致性: 通过特定的算法和技术,Diffutoon确保视频序列中的每一帧在风格和内容上保持一致性,避免了视频播放时可能出现的闪烁、颜色突变或内容不连贯的问题,提高了观看体验。
  • 结构保持: 在视频风格化的过程中,Diffutoon能够识别并保留视频的关键结构信息,如角色的轮廓和物体的边缘,确保了即使在风格化之后,视频的主要内容和形状仍然清晰可辨。
  • 自动着色: Diffutoon具备自动着色功能,能够根据视频内容和风格要求自动选择合适的颜色进行填充。自动着色不仅提高了生产效率,还能确保颜色的协调性和视觉吸引力,使得最终视频在色彩上更加和谐。

Diffutoon的技术原理:

Diffutoon利用扩散模型作为图像合成的核心技术,通过学习数据集中的图像和视频的分布特性,实现从高维潜在空间到图像数据的转换。该框架构建了一个多模块去噪模型,该模型结合了ControlNet和AnimateDiff等技术,用于处理视频中的可控性和一致性问题。

Diffutoon将卡通着色问题分解为四个子问题,每个子问题由特定的模型解决:

  • 风格化: 使用个性化的Stable Diffusion模型实现动漫风格化。
  • 一致性增强: 通过在UNet中插入基于AnimateDiff的运动模块,保持视频帧之间的内容一致性。
  • 结构引导: 使用ControlNet模型提取和保留视频的结构信息,如轮廓。
  • 着色: 另一个ControlNet模型用于上色,提高视频质量,即使输入视频分辨率较低。

Diffutoon采用滑动窗口方法迭代更新每一帧的潜在嵌入,这种方法有助于处理长视频并保持帧间的连贯性。此外,Diffutoon还包含一个编辑分支,用于根据文本提示生成编辑信号,这些信号以彩色视频的形式提供给主管道。

Diffutoon的推出标志着AI技术在动画制作领域应用的重大突破。 该框架能够大幅提高动画制作效率,降低制作成本,并为动画创作者提供更多创作可能性。未来,Diffutoon有望成为动画制作领域的标准工具,推动动画产业的快速发展。

相关链接:

  • 官方项目主页: https://ecnu-cilab.github.io/DiffutoonProjectPage/
  • GitHub代码库: https://github.com/modelscope/DiffSynth-Studio
    *arXiv技术论文: https://arxiv.org/abs/2401.16224

【source】https://ai-bot.cn/diffutoon/

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注