NeurIPS 2024 | 如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降
AIxiv专栏 | 机器之心报道
人工智能数字化转型汽车科技交叉前沿专栏
扩散模型(Diffusion Models, DMs)已经成为文本到图像生成领域的核心技术之一。凭借其卓越的性能,这些模型可以生成高质量的图像,广泛应用于各类创作场景,如艺术设计、广告生成等。然而,随着扩散模型的日益普及,其带来的安全问题也逐渐显现。模型在处理开放式互联网数据时,可能会在生成过程中输出有害的、不适当的内容,例如裸露、暴力、侵犯版权的图像等,这为其实际应用带来了道德和法律上的挑战。
为了应对这些问题,研究者提出了机器遗忘(Machine Unlearning)技术,也称为概念擦除(Concept Erasing)[1-3]。通过这一技术,我们能够有选择性地 “抹去” 扩散模型中的某些不应生成的概念。然而,尽管这一技术能够在非对抗性环境中取得一定效果,现有的概念擦除方法在面对对抗性提示攻击(Adversarial Prompt Attacks)时仍然存在明显的脆弱性。
攻击者可以通过对输入提示的微小修改,诱导模型生成本应被擦除的内容,这使得现有的概念擦除技术不够鲁棒。
对抗性提示攻击:机器遗忘中的隐患
对抗性提示攻击的关键在于通过改变文本输入提示的细微细节,诱使模型生成不当的内容。这类攻击可能会通过调整拼写、加入特定符号、或是改变句子结构来规避模型的防护。例如,即便模型已经接受了擦除 “裸露” 相关内容的训练,但通过输入一些巧妙设计的提示词,攻击者依然可能让模型重新生成被擦除的图像。这种攻击的成功率显示了现有擦除技术在对抗恶意输入时的薄弱性。
为了解决这一问题,密歇根州立大学计算机系博士生张益萌及其团队提出了 AdvUnlearn框架。这是一个将对抗性训练(Adversarial Training, AT)与概念擦除相结合的框架,旨在提升扩散模型在概念擦除任务中的鲁棒性,防止模型在面对对抗性攻击时再次生成被遗忘的内容。
论文题目:Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models
论文地址:https://arxiv.org/abs/2405.15234
代码地址:https://github.com/OPTML-Group/AdvUnlearn
Unlearned Diffusion Model Benchmark:https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark
AdvUnlearn 框架:对抗性训练与概念擦除的融合
AdvUnlearn 框架的独特之处在于,它系统性地结合了对抗性训练与概念擦除方法,从而提升模型在对抗恶意输入时的安全性和鲁棒性。传统的对抗性训练主要应用于图像分类任务,而 AdvUnlearn 首次将其引入到扩散模型的概念擦除中。通过双层优化策略,AdvUnlearn 能够在增强模型鲁棒性的同时保持其图像生成质量。
双层优化(Bi-level Optimization):AdvUnlearn 框架的优化分为两个主要层次:
- 下层优化(Lower-level Optimization): 这一层的任务是生成对抗性提示,即通过对输入文本提示的细微扰动,生成能够诱使模型生成本应被擦除的内容的提示。这个过程的目标是找到这些对抗性提示,使得模型在面对这些提示时生成不合规内容。
- 上层优化(Upper-level Optimization): 这一层的任务是通过最小化模型对目标概念的响应来强化模型的鲁棒性,同时确保模型生成质量不受影响。我们通过更新模型参数 θ,优化概念擦除的效果,同时保留模型的正常生成能力。
其中为目标遗忘内容,为遗忘目标函数,为生成攻击的目标函数。
保留效用的正则化(Utility-Retaining Regularization)
一个重大挑战是,直接引入对抗性训练可能会导致图像生成质量下降。这是因为模型在面对对抗性提示时,往往会过于专注于抵御不当输入,而忽视了对其他正常内容的生成能力。为此,我们提出了保留效用的正则化方法。该方法的核心思想是引入一个 “保留集” (),这是一组与目标概念无关的文本提示。这些提示用于确保模型在训练过程中保留其生成正常内容的能力。例如,在处理 “裸露” 相关概念时,保留集中的提示可能涉及描述风景、动物、建筑等非敏感内容。
保留集的选择尤为重要。我们用 COCO 和 ImageNet 等数据集中的文本描述作为保留集,并通过实验验证了该方法的有效性。
实验结果:
实验结果表明,AdvUnlearn 框架在对抗性提示攻击方面取得了显著的提升。与现有的概念擦除方法相比,AdvUnlearn 能够有效地降低模型在面对对抗性攻击时生成被遗忘内容的风险。同时,AdvUnlearn 框架能够在保持模型生成质量的同时增强其鲁棒性。
结论:
AdvUnlearn 框架为扩散模型的概念擦除任务提供了一种新的解决方案,有效地提升了模型在面对对抗性提示攻击时的鲁棒性。该框架的提出为扩散模型的安全应用提供了重要的理论基础和技术支撑,为推动扩散模型在实际场景中的应用提供了保障。
参考文献:
[1] Machine Unlearning: A Survey
[2] Concept Erasure for Diffusion Models
[3] Unlearning for Diffusion Models
致谢:
感谢张益萌博士和他的团队为本文提供的宝贵信息和研究成果。
免责声明:
本文仅供参考,不构成任何投资建议。
版权声明:
本文版权归机器之心所有,转载请联系机器之心获得授权。
Views: 0