清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级丨 CVPR 2026

📌 一句话摘要

清华大学段岳圻团队提出 CFG-Ctrl，将文生图扩散模型的 CFG 引导机制从线性参数调节重构为非线性控制问题，引入滑模控制理论，在提升语义对齐的同时维持图像质量，打破了高引导尺度下质量下降的困境。

📝 详细摘要

本文报道了清华大学段岳圻团队在 CVPR 2026 上发表的论文《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》。研究指出，传统无分类器引导（CFG）本质上是一种线性误差放大机制，而扩散模型本身是非线性动态系统，因此在高引导尺度下容易引发振荡和发散，导致图像质量下降。团队将生成过程视为动态系统，把语义偏差视为需要控制的误差，引入滑模控制（SMC）这一非线性控制方法，设计了 CFG-Ctrl 框架。实验在 SD3.5、Flux 和 Qwen-Image 三种不同规模的模型上进行验证，结果显示 CFG-Ctrl 在 FID、CLIP 以及人类偏好指标（ImageReward、HPS、PickScore）上均优于标准 CFG 及现有改进方法，且模型规模越大，优势越明显。该方法在高引导尺度下能有效维持图像质量，在复杂 prompt 场景下空间关系和文字清晰度表现更佳。消融实验验证了控制参数 λ 和 k 对系统稳定性和收敛速度的影响。文章认为，这项研究将 CFG 从经验性调参提升为系统理论问题，为文生图模型的稳定性和可靠性提供了新的方法论基础。

💡 主要观点

- 传统 CFG 本质是线性误差放大，与扩散模型的非线性动态系统不匹配，导致高引导尺度下图像质量下降。 研究指出，CFG 将条件与无条件预测的差异线性放大，但扩散过程是非线性的，这种不匹配在高引导尺度下会引发振荡和发散，表现为颜色失真、结构扭曲等问题。

CFG-Ctrl 引入滑模控制，将生成过程重构为非线性控制问题，实现更稳定的引导。 通过将语义偏差视为误差信号，并利用滑模控制的切换机制进行非线性反馈，系统能够在复杂条件下稳定收敛，同时提升语义对齐和图像质量。

CFG-Ctrl 在多种模型上均有效，且模型规模越大，优势越明显。 在 SD3.5、Flux 和 Qwen-Image 上的实验表明，该方法具有跨模型通用性，且在大模型上提升更显著，说明其解决的是模型规模增大后更突出的不稳定性问题。

该方法打破了语义准确性与图像质量之间的经典权衡关系。 在高引导尺度下，标准 CFG 的语义对齐增强但图像质量下降，而 CFG-Ctrl 能同时维持两者，在 FID、CLIP 和人类偏好指标上均实现提升。

💬 文章金句

- 研究不再把 CFG 当作简单的参数调节手段，而是将整个生成过程看作一个动态系统，把语义偏差理解为需要被控制的误差，并引入控制理论来重新设计 guidance 机制。

根本原因在于 CFG 本质上是在做线性误差放大，而 diffusion 本身却是一个非线性系统，所以一旦放大过头，就容易出现振荡和发散。
这个突破的意义在于，它说明 diffusion guidance 本质上不是一个简单调权重的问题，而是一个需要用非线性控制来处理的问题。
不是改进 CFG，而是重写 CFG。

📊 文章信息

AI 初评：86

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：20 分钟

字数：4863

标签：文生图, 扩散模型, CFG, 滑模控制, CVPR 2026

阅读完整文章

清华段岳圻团队论文：从调参数到做控制，文生图迎来一次方法论升级丨 CVPR 2026

🤖 問 AI