扩散模型再突破：无需微调，高效移除目标物体

人工智能领域迎来一项令人振奋的进展： 浙江工商大学与阿里巴巴的研究团队联合推出了一种名为 Attentive Eraser 的创新方法，该方法能够增强预训练扩散模型在图像目标移除任务中的能力，实现稳定且高效的目标移除，且无需进行耗时耗力的模型微调。

扩散模型作为一种新兴的生成模型，近年来在图像生成领域表现出强大的潜力，尤其是在处理高维复杂数据时优势明显。然而，尽管扩散模型在图像生成方面表现出色，但在图像目标移除任务中仍然面临诸多挑战。现有方法在移除前景目标后，往往会留下残影或伪影，难以实现与背景的自然融合，影响视觉效果。

针对这一问题，浙江工商大学统计与数学学院硕士生孙文灏、阿里巴巴算法工程师崔奔雷，以及浙江工商大学统计与数学学院董雪梅教授（通讯作者）组成的团队，提出了 Attentive Eraser 方法。该方法的核心在于增强预训练扩散模型的目标移除能力，从而实现稳定有效的目标移除。

Attentive Eraser 方法的亮点：

无需微调： 与传统的需要大量资源进行模型微调的方法不同，Attentive Eraser 可以在无需微调的情况下，直接应用于多种预训练扩散模型，具有很强的可扩展性。
高效稳定： 实验结果表明，该方法在多种预训练扩散模型中均表现出优异的目标移除能力，甚至优于基于训练的方法。
核心技术： Attentive Eraser 包含两个关键组成部分：
- 注意力激活和抑制 (Attention Activation and Suppression, AAS)： 这是一种专门设计用于修改预训练扩散模型中自注意力机制的方法，可在生成图像时增强模型对背景的注意力，同时降低对前景目标物体的注意力。此外，针对生成过程中自注意力本身带来的对相似物体的高依赖性问题，研究团队提出了相似性抑制 (Similarity Suppression, SS)，有效地解决了该问题。
- 自注意力重定向引导 (Self-Attention Redirection Guidance, SARG)： 这是一种新颖的逆向扩散采样过程引导方法，利用 AAS 将采样过程引导到目标移除的方向，进一步提升了目标移除的效果。

研究意义：

该研究的突破在于，它提供了一种更加高效、便捷的图像目标移除方案。无需进行模型微调，意味着可以节省大量的计算资源和时间成本，降低了技术门槛，使得更多开发者和研究人员能够利用扩散模型进行图像编辑。此外，该方法在多种预训练扩散模型中均表现出优异的性能，表明其具有良好的通用性和可扩展性。

未来展望：

Attentive Eraser 方法的成功，为扩散模型在图像编辑领域的应用开辟了新的道路。未来，我们可以期待更多基于扩散模型的创新方法涌现，进一步提升图像编辑的效率和质量，为人工智能技术在视觉领域的应用带来更多可能性。

论文信息：

论文标题： Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance
论文链接： https://arxiv.org/pdf/2412.12974
Github 地址： https://github.com/Anonym0u3/AttentiveEraser
Diffusers Pipeline： https://github.com/huggingface/diffusers/tree/main/examples/community#stable-diffusion-xl-attentive-eraser-pipeline
Model Scope Demo： https://www.modelscope.cn/studios/Anonymou3/AttentiveEraser
Hugging Face Demo： https://huggingface.co/spaces/nuwandaa/AttentiveEraser

参考文献：

（本文由机器之心根据AIxiv专栏信息报道）

>>> Read more <<<