Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

摘要: 近日,一项由香港中文大学(深圳)、德国马克思普朗克-智能系统研究所、图宾根大学、蒙特利尔大学、加拿大Mila研究所及微软研究院的研究人员共同完成的研究,提出了一种名为Nabla-GFlowNet的全新扩散模型微调方法。该方法基于生成流网络(GFlowNet),旨在解决传统强化学习微调速度慢、直接最大化奖励函数易过拟合且多样性缺失的问题,实现了生成样本多样性与微调效率之间的平衡。该论文已被 ICLR 2025 收录,有望为视觉生成领域带来新的突破。

在视觉生成领域,扩散模型凭借其生成高质量图像、视频甚至文本的能力,已成为不可或缺的工具。然而,生成结果往往与用户偏好存在偏差,例如图像美观度不足、图文不符等。虽然可以通过类似大语言模型中的RLHF(基于人类反馈的强化学习)方式对扩散模型进行微调,但收敛速度较慢。而直接基于可微计算图最大化奖励函数的方法,又容易陷入过拟合和多样性缺失的困境。

为了解决上述问题,研究团队提出了基于生成流网络(GFlowNet)的Nabla-GFlowNet方法。该方法将扩散模型的生成过程视为一个“水流从源头流向终点”的动态系统,从标准高斯分布采样的噪声图像作为初始状态,其“流量”为;去噪过程如同分配水流的管道网络,把每一个节点的水流分配给下游每一个节点;而加噪过程则可以回溯每一个的水流来自哪里;最终生成的图像将累积总流量。

Nabla-GFlowNet的核心在于其提出的Nabla-DB平衡条件:

其中, 是残差去噪过程, 和 分别是微调模型和预训练模型的去噪过程。 是这个残差过程对应的对数流函数。这个残差去噪过程应该满足 ,其中 β 控制微调模型在奖励函数和预训练模型之间的平衡。如果 β 为零,那么残差过程为零,也就是微调网络等于预训练网络。

基于此,研究团队设计了相应的损失函数Residual Nabla-DB,包括前向匹配损失、后向匹配损失和终端匹配损失。为了估计损失函数中需要的对数流梯度,研究人员提出了一种参数化方法,利用U-Net参数化的残差梯度进行单步去噪估计。

Nabla-GFlowNet的优势在于:

  • 高效性: 通过利用梯度信息,加速了微调过程,避免了传统强化学习方法收敛速度慢的问题。
  • 多样性保持: 基于GFlowNet框架,能够更好地保持生成样本的多样性,避免了直接最大化奖励函数导致的过拟合问题。

实验结果:

研究人员在Aesthetic Score(美学指标)、HPSv2和ImageReward等奖励函数上对Stable Diffusion模型进行了微调。实验结果表明,Nabla-GFlowNet能够快速生成奖励更高且避免过拟合的图像。与ReFL、DRaFT等直接奖励优化的方法相比,Nabla-GFlowNet更难陷入过拟合。同时,定量实验也证明了Nabla-GFlowNet能够更好地保持生成样本的多样性。

例如,在Aesthetic Score奖励函数上的微调结果显示,Nabla-GFlowNet微调的网络可以生成平均奖励更高且不失自然的生成图片,并且在奖励收敛快的同时,保持更高的DreamSim多样性指标和更低的FID分数。

结论:

Nabla-GFlowNet的提出,为扩散模型的奖励微调提供了一种新的思路。它不仅能够提高微调效率,还能更好地保持生成样本的多样性,有望在视觉生成领域得到广泛应用。

未来展望:

该研究为扩散模型微调提供了一个有价值的框架,未来可以进一步探索以下方向:

  • 将Nabla-GFlowNet应用于更多类型的扩散模型和生成任务。
  • 研究更有效的奖励函数和参数化方法。
  • 探索Nabla-GFlowNet在其他领域的应用,例如自然语言处理和强化学习。

参考文献:

(本文由资深新闻记者和编辑撰写,所有信息均来自公开资料,并经过事实核查。)


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注