人工智能领域迎来一项令人振奋的进展: 浙江工商大学与阿里巴巴的研究团队联合推出了一种名为 Attentive Eraser 的创新方法,该方法能够增强预训练扩散模型在图像目标移除任务中的能力,实现稳定且高效的目标移除,且无需进行耗时耗力的模型微调。
扩散模型作为一种新兴的生成模型,近年来在图像生成领域表现出强大的潜力,尤其是在处理高维复杂数据时优势明显。然而,尽管扩散模型在图像生成方面表现出色,但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后,往往会留下残影或伪影,难以实现与背景的自然融合,影响视觉效果。
针对这一问题,浙江工商大学统计与数学学院硕士生孙文灏、阿里巴巴算法工程师崔奔雷,以及浙江工商大学统计与数学学院董雪梅教授(通讯作者)组成的团队,提出了 Attentive Eraser 方法。该方法的核心在于增强预训练扩散模型的目标移除能力,从而实现稳定有效的目标移除。
Attentive Eraser 方法的亮点:
- 无需微调: 与传统的需要大量资源进行模型微调的方法不同,Attentive Eraser 可以在无需微调的情况下,直接应用于多种预训练扩散模型,具有很强的可扩展性。
- 高效稳定: 实验结果表明,该方法在多种预训练扩散模型中均表现出优异的目标移除能力,甚至优于基于训练的方法。
- 核心技术: Attentive Eraser 包含两个关键组成部分:
- 注意力激活和抑制 (Attention Activation and Suppression, AAS): 这是一种专门设计用于修改预训练扩散模型中自注意力机制的方法,可在生成图像时增强模型对背景的注意力,同时降低对前景目标物体的注意力。此外,针对生成过程中自注意力本身带来的对相似物体的高依赖性问题,研究团队提出了相似性抑制 (Similarity Suppression, SS),有效地解决了该问题。
- 自注意力重定向引导 (Self-Attention Redirection Guidance, SARG): 这是一种新颖的逆向扩散采样过程引导方法,利用 AAS 将采样过程引导到目标移除的方向,进一步提升了目标移除的效果。
研究意义:
该研究的突破在于,它提供了一种更加高效、便捷的图像目标移除方案。无需进行模型微调,意味着可以节省大量的计算资源和时间成本,降低了技术门槛,使得更多开发者和研究人员能够利用扩散模型进行图像编辑。此外,该方法在多种预训练扩散模型中均表现出优异的性能,表明其具有良好的通用性和可扩展性。
未来展望:
Attentive Eraser 方法的成功,为扩散模型在图像编辑领域的应用开辟了新的道路。未来,我们可以期待更多基于扩散模型的创新方法涌现,进一步提升图像编辑的效率和质量,为人工智能技术在视觉领域的应用带来更多可能性。
论文信息:
- 论文标题: Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance
- 论文链接: https://arxiv.org/pdf/2412.12974
- Github 地址: https://github.com/Anonym0u3/AttentiveEraser
- Diffusers Pipeline: https://github.com/huggingface/diffusers/tree/main/examples/community#stable-diffusion-xl-attentive-eraser-pipeline
- Model Scope Demo: https://www.modelscope.cn/studios/Anonymou3/AttentiveEraser
- Hugging Face Demo: https://huggingface.co/spaces/nuwandaa/AttentiveEraser
参考文献:
- Denoising Diffusion Probabilistic Models. NeurIPS, 2020.
- Stable Diffusion. CVPR, 2022.
- Image Inpainting with Deep Generative Models. CVPR, 2018.
(本文由机器之心根据AIxiv专栏信息报道)
Views: 0