上海 – 随着AI技术的飞速发展,文生图模型在带来便利的同时,也潜藏着生成不当内容的风险。如何有效控制这些风险,成为AI安全领域的重要课题。近日,复旦大学视觉与学习实验室的一项最新研究成果,为解决这一问题带来了突破性进展。该团队提出的双编码器调制网络(DuMo),在扩散模型风险概念擦除方面实现了当前最佳(SOTA)效果,并成功入选人工智能领域顶级会议AAAI 2025。
这项研究由复旦大学硕士生韩枫、博士生陈凯担任第一、第二作者,陈静静副教授担任通讯作者。研究团队长期专注于AI安全领域,并在CVPR、ECCV、AAAI、ACM MM等国际顶级会议上发表了多篇相关论文。
文生图模型“穿衣”难题:DuMo的精准解决方案
文生图模型生成露骨图片、模仿艺术家风格侵犯版权等问题日益凸显。现有方法往往采用“概念擦除”的微调手段,但效果有限,且容易破坏模型原有的生成能力。
针对这些挑战,复旦大学团队设计的DuMo网络,不仅能够有效移除图像中的风险概念,例如给图像“穿上衣服”,还能最大程度地保留人物及其他属性不受影响,实现“指哪擦哪”的精准控制。此外,DuMo还能有效避免文生图模型模仿特定艺术家风格,从而减少潜在的版权侵权风险。
DuMo:擦除风险,保护生成能力
当前概念擦除技术面临两大难题:一是难以有效擦除风险概念;二是擦除过程中,模型对其他安全概念的生成能力容易受损。DuMo的创新之处在于,它成功地解决了“擦除”和“保护”之间的矛盾。
DuMo的核心在于其独特的双阶段微调策略,包括基于跳跃连接的EPR(Erasure Prior Regularization)擦除模块和时间-层级调制(TLMO)机制。
-
基于跳跃连接的EPR擦除模块: 传统的概念擦除方法通常直接修改U-Net的主干特征,这会对安全概念的生成产生不良影响。DuMo创新性地利用U-Net编码器的副本和零卷积组构建EPR模块,并冻结原始U-Net主干的参数,保留了模型原有的先验知识。EPR模块只修改跳跃连接特征,从而最大限度地避免对安全概念的结构和生成质量产生负面影响。
-
时间-层级调制(TLMO)机制: 研究人员发现,EPR模块在不同的跳跃连接层和去噪时间步上,对图像中的低频结构元素和高频细节部分表现出不同的擦除偏好。TLMO机制通过对跳跃连接层和时间步进行分组,并使用微调得到的调制系数,自动调整EPR模块在不同层级和时间步的擦除强度。此外,在第二阶段的微调过程中,DuMo还添加了一个正则项,用于将微调后的模型噪声与原始模型进行对齐,从而大幅减少对安全概念的影响,保证安全概念的生成质量和细节。
实验验证:擦除能力与生成保留的双赢
为了验证DuMo的有效性,研究团队在裸露内容擦除、卡通概念移除和艺术风格擦除三个任务上进行了全面评估。实验结果表明,DuMo在各项任务中的表现均优于当前所有主流方法。
-
裸露内容擦除: 在风险性最高的“裸露内容擦除”任务中,DuMo在I2P基准数据集上的裸体部位检测数量仅为34个,远低于现有最佳方法。同时,生成图像的质量指标(FID)与CLIP Score均达到顶尖水平,表明DuMo在擦除裸露概念的同时,还能很好地保持图像的结构。
-
卡通概念移除: 针对“Snoopy”等流行卡通概念的擦除任务,DuMo在单概念和多概念擦除任务中均表现出优异的性能,证明了其对复杂任务的适应性。
-
艺术风格擦除: 在艺术风格移除任务中,DuMo能够精准擦除“梵高”和“伦勃朗”等风格特征,同时最大限度地减少对其他艺术家风格的破坏,实现了SOTA级别的风格擦除效果。
未来展望
复旦大学的这项研究为扩散模型的安全应用提供了新的思路和方法。DuMo不仅在技术上实现了突破,更在伦理和社会责任方面做出了积极贡献。随着AI技术的不断发展,相信未来会有更多类似的研究涌现,共同构建一个更加安全、可信赖的AI生态。
参考文献
[1] Si, C.; Huang, Z.; Jiang, Y.; and Liu, Z. 2024. Freeu: Free lunch in diffusion u-nets. arXiv preprint arXiv:2309.11497.
论文链接: https://arxiv.org/abs/2501.01125
Views: 0