摘要: 近日,一项由香港中文大学(深圳)、德国马克思普朗克-智能系统研究所、图宾根大学、蒙特利尔大学、加拿大Mila研究所及微软研究院的研究人员共同完成的研究,提出了一种名为Nabla-GFlowNet的全新扩散模型微调方法。该方法基于生成流网络(GFlowNet),旨在解决传统强化学习微调速度慢、直接最大化奖励函数易过拟合且多样性缺失的问题,实现了生成样本多样性与微调效率之间的平衡。该论文已被 ICLR 2025 收录,有望为视觉生成领域带来新的突破。
在视觉生成领域,扩散模型凭借其生成高质量图像、视频甚至文本的能力,已成为不可或缺的工具。然而,生成结果往往与用户偏好存在偏差,例如图像美观度不足、图文不符等。虽然可以通过类似大语言模型中的RLHF(基于人类反馈的强化学习)方式对扩散模型进行微调,但收敛速度较慢。而直接基于可微计算图最大化奖励函数的方法,又容易陷入过拟合和多样性缺失的困境。
为了解决上述问题,研究团队提出了基于生成流网络(GFlowNet)的Nabla-GFlowNet方法。该方法将扩散模型的生成过程视为一个“水流从源头流向终点”的动态系统,从标准高斯分布采样的噪声图像作为初始状态,其“流量”为;去噪过程如同分配水流的管道网络,把每一个节点的水流分配给下游每一个节点;而加噪过程则可以回溯每一个的水流来自哪里;最终生成的图像将累积总流量。
Nabla-GFlowNet的核心在于其提出的Nabla-DB平衡条件:
其中, 是残差去噪过程, 和 分别是微调模型和预训练模型的去噪过程。 是这个残差过程对应的对数流函数。这个残差去噪过程应该满足 ,其中 β 控制微调模型在奖励函数和预训练模型之间的平衡。如果 β 为零,那么残差过程为零,也就是微调网络等于预训练网络。
基于此,研究团队设计了相应的损失函数Residual Nabla-DB,包括前向匹配损失、后向匹配损失和终端匹配损失。为了估计损失函数中需要的对数流梯度,研究人员提出了一种参数化方法,利用U-Net参数化的残差梯度进行单步去噪估计。
Nabla-GFlowNet的优势在于:
- 高效性: 通过利用梯度信息,加速了微调过程,避免了传统强化学习方法收敛速度慢的问题。
- 多样性保持: 基于GFlowNet框架,能够更好地保持生成样本的多样性,避免了直接最大化奖励函数导致的过拟合问题。
实验结果:
研究人员在Aesthetic Score(美学指标)、HPSv2和ImageReward等奖励函数上对Stable Diffusion模型进行了微调。实验结果表明,Nabla-GFlowNet能够快速生成奖励更高且避免过拟合的图像。与ReFL、DRaFT等直接奖励优化的方法相比,Nabla-GFlowNet更难陷入过拟合。同时,定量实验也证明了Nabla-GFlowNet能够更好地保持生成样本的多样性。
例如,在Aesthetic Score奖励函数上的微调结果显示,Nabla-GFlowNet微调的网络可以生成平均奖励更高且不失自然的生成图片,并且在奖励收敛快的同时,保持更高的DreamSim多样性指标和更低的FID分数。
结论:
Nabla-GFlowNet的提出,为扩散模型的奖励微调提供了一种新的思路。它不仅能够提高微调效率,还能更好地保持生成样本的多样性,有望在视觉生成领域得到广泛应用。
未来展望:
该研究为扩散模型微调提供了一个有价值的框架,未来可以进一步探索以下方向:
- 将Nabla-GFlowNet应用于更多类型的扩散模型和生成任务。
- 研究更有效的奖励函数和参数化方法。
- 探索Nabla-GFlowNet在其他领域的应用,例如自然语言处理和强化学习。
参考文献:
- Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets: https://arxiv.org/abs/2412.07775
- 代码地址: https://github.com/lzzcd001/nabla-gfn
(本文由资深新闻记者和编辑撰写,所有信息均来自公开资料,并经过事实核查。)
Views: 0