南洋理工&普渡大学：CFG-Zero 提升扩散模型稳健性

“`markdown

南洋理工&普渡大学联手推出CFG-Zero*：为Flow Matching模型注入更强劲的无分类器引导能力

摘要： 南洋理工大学与普渡大学的研究团队近日联合发布了CFG-Zero*，一种针对Flow Matching模型设计的创新型无分类器引导（Classifier-Free Guidance，CFG）方法。该方法通过优化缩放因子和零初始化策略，显著提升了生成图像和视频的质量，在细节保真度、文本对齐性和稳定性方面均有显著提升。该研究成果已被集成至Diffusers与ComfyUI，为生成式AI领域带来了新的突破。

正文：

随着生成式AI技术的飞速发展，扩散模型（Diffusion Models）在文本生成图像和视频领域扮演着越来越重要的角色。尤其近年来，Flow Matching作为一种更具可解释性和收敛速度优势的生成范式，正逐渐取代传统的基于随机微分方程（SDE）的扩散方法，成为Lumina-Next、Stable Diffusion 3/3.5、Wan2.1等主流模型的核心方案。

然而，如何在推理阶段更好地引导生成过程，使模型输出更精准地符合用户提供的文本描述，一直是该领域面临的关键挑战。目前广泛采用的Classifier-Free Guidance（CFG）策略，在模型训练不足或估计误差较大时，容易导致样本偏离真实分布，甚至引入不必要的伪影或结构崩塌。

为了解决这一问题，南洋理工大学S-Lab与普渡大学的研究者们携手推出了创新方法——CFG-Zero*。该方法针对传统CFG在Flow Matching框架下的结构性误差进行了深入的理论分析，并设计了两项轻量级但效果显著的改进机制，从而实现了生成图像/视频在细节保真度、文本对齐性与稳定性上的全面提升。

CFG为何失效？研究动机揭秘

传统的CFG策略通过对有条件与无条件预测结果进行插值来实现引导。但在Flow Matching模型中，推理过程是通过解常微分方程（ODE）进行的，每一步都依赖于前一步的速度估计。当模型训练不足时，初始阶段的速度往往不够准确，而CFG此时的引导反而可能将样本推向错误的轨迹。研究者通过在高斯混合分布的可控实验中发现，CFG在初始步的引导效果甚至不如“静止不动”，即设速度为0。

CFG-Zero*：两大创新策略

CFG-Zero*的核心在于两项关键创新：

优化缩放因子（Optimized Scale）： 在每个时间步中动态计算有条件速度与无条件速度的内积比值，从而调整CFG中无条件项的强度，避免“过度引导”导致的误差。研究者通过数学推导，找到了一个修正因子s，使得修正后的速度能够尽可能接近真实速度，从而提升引导的精度。
零初始化（Zero-init）： 将ODE求解器的前K步速度置为零（默认K=1），跳过模型最不可靠的预测阶段，有效降低初始误差传播。研究者通过在2D多元高斯分布上的定量分析，发现训练早期阶段，无分类引导得到的速度误差较大，甚至不如将速度设置为0。

这两项策略可以无缝集成至现有的CFG推理流程中，几乎不引入额外的计算开销。

实验结果：全面超越现有方案

研究者在多个任务与主流模型上验证了CFG-Zero*的有效性，涵盖了文本生成图像（Text-to-Image）与文本生成视频（Text-to-Video）两大方向。

图像生成： 在Lumina-Next、SD3、SD3.5、Flux等SOTA模型上进行对比实验，结果显示CFG-Zero在Aesthetic Score与CLIP Score两项核心指标上均优于原始CFG。例如在Stable Diffusion 3.5上，美学分有明显提高，不仅图像美感更强，而且语义一致性更好。在T2I-CompBench评测中，CFG-Zero在色彩、纹理、形状等多个维度均取得更优表现，特别适用于需要精准表达复杂语义的生成任务。
视频生成： 将CFG-Zero集成到Wan2.1模型中，评估标准采用VBench基准套件。结果表明，改进后的模型在Aesthetic Quality、Imaging Quality、Motion Smoothness等方面均有所提升，呈现出更连贯、结构更稳定的视频内容。CFG-Zero有效减少了图像跳变与不自然的位移问题。

开源社区的积极响应

CFG-Zero*在开源社区中实现了快速集成，这无疑将加速其在实际应用中的普及。

结论与展望

南洋理工大学与普渡大学联合提出的CFG-Zero方法，通过优化缩放因子和零初始化策略，显著提升了Flow Matching模型在文本生成图像和视频任务中的表现。该研究不仅为生成式AI领域提供了一种更稳健的无分类器引导方法，也为未来相关研究指明了方向。随着生成式AI技术的不断发展，我们有理由期待CFG-Zero及其后续研究成果将在更多领域发挥重要作用。

参考文献：

Fan, W., et al. (2025). CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models. arXiv preprint arXiv:2503.18886. https://arxiv.org/abs/2503.18886

相关链接：

项目主页: https://weichenfan.github.io/webpage-cfg-zero-star/
代码仓库: https://github.com/WeichenFan/CFG-Zero-star
“`

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

南洋理工&普渡大学：CFG-Zero 提升扩散模型稳健性

作者智能小编

南洋理工&普渡大学联手推出CFG-Zero*：为Flow Matching模型注入更强劲的无分类器引导能力

相关文章

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

发表回复取消回复

为您推荐

Tencent-Backed Founder Builds AIGC Platform Boasts High Engagement & Conversion

ICLR 2025：中国科大、Meta论文荣膺杰出奖

腾讯收购后再创业，AIGC交互平台用户粘性惊人

国产Vidu Q1爆红！AI视频技术登顶VBench

作者智能小编

南洋理工&普渡大学联手推出CFG-Zero*：为Flow Matching模型注入更强劲的无分类器引导能力

相关文章

发表回复 取消回复

为您推荐

发表回复取消回复