Nabla-GFlowNet：扩散模型微调新突破！

摘要： 近日，一项由香港中文大学（深圳）、德国马克思普朗克-智能系统研究所、图宾根大学、蒙特利尔大学、加拿大Mila研究所及微软研究院的研究人员共同完成的研究，提出了一种名为Nabla-GFlowNet的全新扩散模型微调方法。该方法基于生成流网络（GFlowNet），旨在解决传统强化学习微调速度慢、直接最大化奖励函数易过拟合且多样性缺失的问题，实现了生成样本多样性与微调效率之间的平衡。该论文已被 ICLR 2025 收录，有望为视觉生成领域带来新的突破。

在视觉生成领域，扩散模型凭借其生成高质量图像、视频甚至文本的能力，已成为不可或缺的工具。然而，生成结果往往与用户偏好存在偏差，例如图像美观度不足、图文不符等。虽然可以通过类似大语言模型中的RLHF（基于人类反馈的强化学习）方式对扩散模型进行微调，但收敛速度较慢。而直接基于可微计算图最大化奖励函数的方法，又容易陷入过拟合和多样性缺失的困境。

为了解决上述问题，研究团队提出了基于生成流网络（GFlowNet）的Nabla-GFlowNet方法。该方法将扩散模型的生成过程视为一个“水流从源头流向终点”的动态系统，从标准高斯分布采样的噪声图像作为初始状态，其“流量”为；去噪过程如同分配水流的管道网络，把每一个节点的水流分配给下游每一个节点；而加噪过程则可以回溯每一个的水流来自哪里；最终生成的图像将累积总流量。

Nabla-GFlowNet的核心在于其提出的Nabla-DB平衡条件：

其中，是残差去噪过程，和分别是微调模型和预训练模型的去噪过程。是这个残差过程对应的对数流函数。这个残差去噪过程应该满足，其中 β 控制微调模型在奖励函数和预训练模型之间的平衡。如果 β 为零，那么残差过程为零，也就是微调网络等于预训练网络。

基于此，研究团队设计了相应的损失函数Residual Nabla-DB，包括前向匹配损失、后向匹配损失和终端匹配损失。为了估计损失函数中需要的对数流梯度，研究人员提出了一种参数化方法，利用U-Net参数化的残差梯度进行单步去噪估计。

Nabla-GFlowNet的优势在于：

高效性： 通过利用梯度信息，加速了微调过程，避免了传统强化学习方法收敛速度慢的问题。
多样性保持： 基于GFlowNet框架，能够更好地保持生成样本的多样性，避免了直接最大化奖励函数导致的过拟合问题。

实验结果：

研究人员在Aesthetic Score（美学指标）、HPSv2和ImageReward等奖励函数上对Stable Diffusion模型进行了微调。实验结果表明，Nabla-GFlowNet能够快速生成奖励更高且避免过拟合的图像。与ReFL、DRaFT等直接奖励优化的方法相比，Nabla-GFlowNet更难陷入过拟合。同时，定量实验也证明了Nabla-GFlowNet能够更好地保持生成样本的多样性。

例如，在Aesthetic Score奖励函数上的微调结果显示，Nabla-GFlowNet微调的网络可以生成平均奖励更高且不失自然的生成图片，并且在奖励收敛快的同时，保持更高的DreamSim多样性指标和更低的FID分数。

结论：

Nabla-GFlowNet的提出，为扩散模型的奖励微调提供了一种新的思路。它不仅能够提高微调效率，还能更好地保持生成样本的多样性，有望在视觉生成领域得到广泛应用。

未来展望：

该研究为扩散模型微调提供了一个有价值的框架，未来可以进一步探索以下方向：

将Nabla-GFlowNet应用于更多类型的扩散模型和生成任务。
研究更有效的奖励函数和参数化方法。
探索Nabla-GFlowNet在其他领域的应用，例如自然语言处理和强化学习。

参考文献：

Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets: https://arxiv.org/abs/2412.07775
代码地址: https://github.com/lzzcd001/nabla-gfn

（本文由资深新闻记者和编辑撰写，所有信息均来自公开资料，并经过事实核查。）

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Nabla-GFlowNet：扩散模型微调新突破！

作者智能小编

相关文章

腾讯AI“元宝”杀入微信，13亿用户社交版图重塑？

2025人工智能：颠覆与新生

北大团队突破！单目长视频实时重建高质量3D点云

发表回复取消回复

为您推荐