阿里AI“魔法棒”：视频秒变卡通！

阿里巴巴推出AI视频卡通化框架Diffutoon，赋能动画制作新纪元

北京，2024年2月15日 – 阿里巴巴联合华东师范大学的研究团队近日推出了一款名为Diffutoon的AI框架，该框架能够将现实风格的视频转换为卡通动漫风格，为动画制作领域带来了全新的可能性。

Diffutoon基于扩散模型，通过分解为风格化、一致性增强、结构引导和着色等子任务，实现了对视频的高分辨率和长时间渲染。该框架不仅能够将视频转换为卡通风格，还能根据文本提示对视频内容进行编辑，例如修改角色服装颜色、调整角色表情等，在保持高度视觉效果和一致性的同时，实现了对视频动画的高效、高质量处理。

Diffutoon的主要功能特色包括：

卡通视频渲染: Diffutoon利用扩散模型将现实风格的视频转换成具有卡通或动漫风格的视频，实现视觉上的平面化和风格化效果。转换不仅包括颜色和纹理的变化，还涉及对光影、轮廓等元素的艺术化处理，以模仿手绘动画的视觉效果。
高分辨率支持:Diffutoon能够处理高分辨率视频，支持至少1536×1536像素的分辨率，确保在放大或高清显示设备上也能保持清晰度和细节，适合高质量的视频制作和展示需求。
视频编辑: 用户可以通过文本提示对视频内容进行编辑，Diffutoon能够识别并根据这些提示调整视频的特定部分。编辑功能支持对角色、场景元素的外观和属性进行修改，如更换服装颜色、调整角色表情等。
帧间一致性: 通过特定的算法和技术，Diffutoon确保视频序列中的每一帧在风格和内容上保持一致性，避免了视频播放时可能出现的闪烁、颜色突变或内容不连贯的问题，提高了观看体验。
结构保持: 在视频风格化的过程中，Diffutoon能够识别并保留视频的关键结构信息，如角色的轮廓和物体的边缘，确保了即使在风格化之后，视频的主要内容和形状仍然清晰可辨。
自动着色: Diffutoon具备自动着色功能，能够根据视频内容和风格要求自动选择合适的颜色进行填充。自动着色不仅提高了生产效率，还能确保颜色的协调性和视觉吸引力，使得最终视频在色彩上更加和谐。

Diffutoon的技术原理:

Diffutoon利用扩散模型作为图像合成的核心技术，通过学习数据集中的图像和视频的分布特性，实现从高维潜在空间到图像数据的转换。该框架构建了一个多模块去噪模型，该模型结合了ControlNet和AnimateDiff等技术，用于处理视频中的可控性和一致性问题。

Diffutoon将卡通着色问题分解为四个子问题，每个子问题由特定的模型解决：

风格化: 使用个性化的Stable Diffusion模型实现动漫风格化。
一致性增强: 通过在UNet中插入基于AnimateDiff的运动模块，保持视频帧之间的内容一致性。
结构引导: 使用ControlNet模型提取和保留视频的结构信息，如轮廓。
着色: 另一个ControlNet模型用于上色，提高视频质量，即使输入视频分辨率较低。

Diffutoon采用滑动窗口方法迭代更新每一帧的潜在嵌入，这种方法有助于处理长视频并保持帧间的连贯性。此外，Diffutoon还包含一个编辑分支，用于根据文本提示生成编辑信号，这些信号以彩色视频的形式提供给主管道。

Diffutoon的推出标志着AI技术在动画制作领域应用的重大突破。 该框架能够大幅提高动画制作效率，降低制作成本，并为动画创作者提供更多创作可能性。未来，Diffutoon有望成为动画制作领域的标准工具，推动动画产业的快速发展。

相关链接:

官方项目主页: https://ecnu-cilab.github.io/DiffutoonProjectPage/
GitHub代码库: https://github.com/modelscope/DiffSynth-Studio
*arXiv技术论文: https://arxiv.org/abs/2401.16224

【source】https://ai-bot.cn/diffutoon/