← 回總覽

清华段岳圻团队论文:从调参数到做控制,文生图迎来一次方法论升级丨 CVPR 2026

📅 2026-04-25 14:32 AI科技评论 人工智能 2 分鐘 1662 字 評分: 86
文生图 扩散模型 CFG 滑模控制 CVPR 2026
📌 一句话摘要 清华大学段岳圻团队提出 CFG-Ctrl,将文生图扩散模型的 CFG 引导机制从线性参数调节重构为非线性控制问题,引入滑模控制理论,在提升语义对齐的同时维持图像质量,打破了高引导尺度下质量下降的困境。 📝 详细摘要 本文报道了清华大学段岳圻团队在 CVPR 2026 上发表的论文《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》。研究指出,传统无分类器引导(CFG)本质上是一种线性误差放大机制,而扩散模型本身是非线性动态系统,因此在高引导尺度下容易引发振荡和发散,导致图像质量下降。团队将生成过程视为动态系

📌 一句话摘要

清华大学段岳圻团队提出 CFG-Ctrl,将文生图扩散模型的 CFG 引导机制从线性参数调节重构为非线性控制问题,引入滑模控制理论,在提升语义对齐的同时维持图像质量,打破了高引导尺度下质量下降的困境。

📝 详细摘要

本文报道了清华大学段岳圻团队在 CVPR 2026 上发表的论文《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》。研究指出,传统无分类器引导(CFG)本质上是一种线性误差放大机制,而扩散模型本身是非线性动态系统,因此在高引导尺度下容易引发振荡和发散,导致图像质量下降。团队将生成过程视为动态系统,把语义偏差视为需要控制的误差,引入滑模控制(SMC)这一非线性控制方法,设计了 CFG-Ctrl 框架。实验在 SD3.5、Flux 和 Qwen-Image 三种不同规模的模型上进行验证,结果显示 CFG-Ctrl 在 FID、CLIP 以及人类偏好指标(ImageReward、HPS、PickScore)上均优于标准 CFG 及现有改进方法,且模型规模越大,优势越明显。该方法在高引导尺度下能有效维持图像质量,在复杂 prompt 场景下空间关系和文字清晰度表现更佳。消融实验验证了控制参数 λ 和 k 对系统稳定性和收敛速度的影响。文章认为,这项研究将 CFG 从经验性调参提升为系统理论问题,为文生图模型的稳定性和可靠性提供了新的方法论基础。

💡 主要观点

- 传统 CFG 本质是线性误差放大,与扩散模型的非线性动态系统不匹配,导致高引导尺度下图像质量下降。 研究指出,CFG 将条件与无条件预测的差异线性放大,但扩散过程是非线性的,这种不匹配在高引导尺度下会引发振荡和发散,表现为颜色失真、结构扭曲等问题。

CFG-Ctrl 引入滑模控制,将生成过程重构为非线性控制问题,实现更稳定的引导。 通过将语义偏差视为误差信号,并利用滑模控制的切换机制进行非线性反馈,系统能够在复杂条件下稳定收敛,同时提升语义对齐和图像质量。
CFG-Ctrl 在多种模型上均有效,且模型规模越大,优势越明显。 在 SD3.5、Flux 和 Qwen-Image 上的实验表明,该方法具有跨模型通用性,且在大模型上提升更显著,说明其解决的是模型规模增大后更突出的不稳定性问题。
该方法打破了语义准确性与图像质量之间的经典权衡关系。 在高引导尺度下,标准 CFG 的语义对齐增强但图像质量下降,而 CFG-Ctrl 能同时维持两者,在 FID、CLIP 和人类偏好指标上均实现提升。

💬 文章金句

- 研究不再把 CFG 当作简单的参数调节手段,而是将整个生成过程看作一个动态系统,把语义偏差理解为需要被控制的误差,并引入控制理论来重新设计 guidance 机制。

  • 根本原因在于 CFG 本质上是在做线性误差放大,而 diffusion 本身却是一个非线性系统,所以一旦放大过头,就容易出现振荡和发散。
  • 这个突破的意义在于,它说明 diffusion guidance 本质上不是一个简单调权重的问题,而是一个需要用非线性控制来处理的问题。
  • 不是改进 CFG,而是重写 CFG。

📊 文章信息

AI 初评:86

来源:AI科技评论

作者:AI科技评论

分类:人工智能

语言:中文

阅读时间:20 分钟

字数:4863

标签: 文生图, 扩散模型, CFG, 滑模控制, CVPR 2026

阅读完整文章

查看原文 → 發佈: 2026-04-25 14:32:00 收錄: 2026-04-25 22:00:49

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。