清华大学段岳圻团队提出 CFG-Ctrl,将文生图扩散模型的 CFG 引导机制从线性参数调节重构为非线性控制问题,引入滑模控制理论,在提升语义对齐的同时维持图像质量,打破了高引导尺度下质量下降的困境。
📝 详细摘要
本文报道了清华大学段岳圻团队在 CVPR 2026 上发表的论文《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》。研究指出,传统无分类器引导(CFG)本质上是一种线性误差放大机制,而扩散模型本身是非线性动态系统,因此在高引导尺度下容易引发振荡和发散,导致图像质量下降。团队将生成过程视为动态系统,把语义偏差视为需要控制的误差,引入滑模控制(SMC)这一非线性控制方法,设计了 CFG-Ctrl 框架。实验在 SD3.5、Flux 和 Qwen-Image 三种不同规模的模型上进行验证,结果显示 CFG-Ctrl 在 FID、CLIP 以及人类偏好指标(ImageReward、HPS、PickScore)上均优于标准 CFG 及现有改进方法,且模型规模越大,优势越明显。该方法在高引导尺度下能有效维持图像质量,在复杂 prompt 场景下空间关系和文字清晰度表现更佳。消融实验验证了控制参数 λ 和 k 对系统稳定性和收敛速度的影响。文章认为,这项研究将 CFG 从经验性调参提升为系统理论问题,为文生图模型的稳定性和可靠性提供了新的方法论基础。
💡 主要观点
- 传统 CFG 本质是线性误差放大,与扩散模型的非线性动态系统不匹配,导致高引导尺度下图像质量下降。 研究指出,CFG 将条件与无条件预测的差异线性放大,但扩散过程是非线性的,这种不匹配在高引导尺度下会引发振荡和发散,表现为颜色失真、结构扭曲等问题。
💬 文章金句
- 研究不再把 CFG 当作简单的参数调节手段,而是将整个生成过程看作一个动态系统,把语义偏差理解为需要被控制的误差,并引入控制理论来重新设计 guidance 机制。
- 根本原因在于 CFG 本质上是在做线性误差放大,而 diffusion 本身却是一个非线性系统,所以一旦放大过头,就容易出现振荡和发散。
- 这个突破的意义在于,它说明 diffusion guidance 本质上不是一个简单调权重的问题,而是一个需要用非线性控制来处理的问题。
- 不是改进 CFG,而是重写 CFG。
📊 文章信息
AI 初评:86
来源:AI科技评论
作者:AI科技评论
分类:人工智能
语言:中文
阅读时间:20 分钟
字数:4863
标签: 文生图, 扩散模型, CFG, 滑模控制, CVPR 2026