Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

“`markdown

南洋理工&普渡大学联手推出CFG-Zero*:为Flow Matching模型注入更强劲的无分类器引导能力

摘要: 南洋理工大学与普渡大学的研究团队近日联合发布了CFG-Zero*,一种针对Flow Matching模型设计的创新型无分类器引导(Classifier-Free Guidance,CFG)方法。该方法通过优化缩放因子和零初始化策略,显著提升了生成图像和视频的质量,在细节保真度、文本对齐性和稳定性方面均有显著提升。该研究成果已被集成至Diffusers与ComfyUI,为生成式AI领域带来了新的突破。

正文:

随着生成式AI技术的飞速发展,扩散模型(Diffusion Models)在文本生成图像和视频领域扮演着越来越重要的角色。尤其近年来,Flow Matching作为一种更具可解释性和收敛速度优势的生成范式,正逐渐取代传统的基于随机微分方程(SDE)的扩散方法,成为Lumina-Next、Stable Diffusion 3/3.5、Wan2.1等主流模型的核心方案。

然而,如何在推理阶段更好地引导生成过程,使模型输出更精准地符合用户提供的文本描述,一直是该领域面临的关键挑战。目前广泛采用的Classifier-Free Guidance(CFG)策略,在模型训练不足或估计误差较大时,容易导致样本偏离真实分布,甚至引入不必要的伪影或结构崩塌。

为了解决这一问题,南洋理工大学S-Lab与普渡大学的研究者们携手推出了创新方法——CFG-Zero*。该方法针对传统CFG在Flow Matching框架下的结构性误差进行了深入的理论分析,并设计了两项轻量级但效果显著的改进机制,从而实现了生成图像/视频在细节保真度、文本对齐性与稳定性上的全面提升。

CFG为何失效?研究动机揭秘

传统的CFG策略通过对有条件与无条件预测结果进行插值来实现引导。但在Flow Matching模型中,推理过程是通过解常微分方程(ODE)进行的,每一步都依赖于前一步的速度估计。当模型训练不足时,初始阶段的速度往往不够准确,而CFG此时的引导反而可能将样本推向错误的轨迹。研究者通过在高斯混合分布的可控实验中发现,CFG在初始步的引导效果甚至不如“静止不动”,即设速度为0。

CFG-Zero*:两大创新策略

CFG-Zero*的核心在于两项关键创新:

  1. 优化缩放因子(Optimized Scale): 在每个时间步中动态计算有条件速度与无条件速度的内积比值,从而调整CFG中无条件项的强度,避免“过度引导”导致的误差。研究者通过数学推导,找到了一个修正因子s,使得修正后的速度能够尽可能接近真实速度,从而提升引导的精度。

  2. 零初始化(Zero-init): 将ODE求解器的前K步速度置为零(默认K=1),跳过模型最不可靠的预测阶段,有效降低初始误差传播。研究者通过在2D多元高斯分布上的定量分析,发现训练早期阶段,无分类引导得到的速度误差较大,甚至不如将速度设置为0。

这两项策略可以无缝集成至现有的CFG推理流程中,几乎不引入额外的计算开销。

实验结果:全面超越现有方案

研究者在多个任务与主流模型上验证了CFG-Zero*的有效性,涵盖了文本生成图像(Text-to-Image)与文本生成视频(Text-to-Video)两大方向。

  • 图像生成: 在Lumina-Next、SD3、SD3.5、Flux等SOTA模型上进行对比实验,结果显示CFG-Zero在Aesthetic Score与CLIP Score两项核心指标上均优于原始CFG。例如在Stable Diffusion 3.5上,美学分有明显提高,不仅图像美感更强,而且语义一致性更好。在T2I-CompBench评测中,CFG-Zero在色彩、纹理、形状等多个维度均取得更优表现,特别适用于需要精准表达复杂语义的生成任务。
  • 视频生成: 将CFG-Zero集成到Wan2.1模型中,评估标准采用VBench基准套件。结果表明,改进后的模型在Aesthetic Quality、Imaging Quality、Motion Smoothness等方面均有所提升,呈现出更连贯、结构更稳定的视频内容。CFG-Zero有效减少了图像跳变与不自然的位移问题。

开源社区的积极响应

CFG-Zero*在开源社区中实现了快速集成,这无疑将加速其在实际应用中的普及。

结论与展望

南洋理工大学与普渡大学联合提出的CFG-Zero方法,通过优化缩放因子和零初始化策略,显著提升了Flow Matching模型在文本生成图像和视频任务中的表现。该研究不仅为生成式AI领域提供了一种更稳健的无分类器引导方法,也为未来相关研究指明了方向。随着生成式AI技术的不断发展,我们有理由期待CFG-Zero及其后续研究成果将在更多领域发挥重要作用。

参考文献:

  • Fan, W., et al. (2025). CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models. arXiv preprint arXiv:2503.18886. https://arxiv.org/abs/2503.18886

相关链接:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注