上交大 x vivo 团队：一个简单改动，让 diffusion 全面提升丨 CVPR 2026

📌 一句话摘要

本文介绍了上海交通大学与 vivo 团队提出的 C²FG 方法，通过分析 diffusion 过程中条件与无条件分支的 score 差异，实现动态引导控制，从而在多个基准任务上稳定提升生成质量与多样性。

📝 详细摘要

文章报道了上海交通大学与 vivo BlueImage Lab 联合发表在 CVPR 2026 上的研究成果 C²FG。该方法的核心洞察是，传统的 Classifier-Free Guidance 在整个 diffusion 采样过程中使用固定的引导强度，这与模型在不同阶段对条件信息依赖程度不同的动态特性不符。C²FG 通过实时分析条件分支与无条件分支的 score 差异，动态调整引导强度，实现了更符合生成过程内在规律的引导。实验表明，该方法在 ImageNet、文本到图像生成等多种任务和模型上均能带来稳定提升，包括降低 FID、提升 IS 和 Recall 等指标，甚至在已接近性能极限的强模型上依然有效。研究不仅提出了一种改进方法，更揭示了从规模驱动转向机制驱动的生成模型发展新方向。

💡 主要观点

- 固定引导强度不符合 diffusion 过程的动态特性，是当前模型可控性不足的深层原因。 研究发现，在 diffusion 早期，条件与无条件分支差异小，固定强引导易导致过拟合；后期差异大，固定引导又显不足。C²FG 通过动态匹配这种差异，解决了机制层面的偏差。

C²FG 方法通过分析 score 差异实现动态引导，能稳定提升生成质量与多样性。 该方法在 ImageNet 等任务上，能在不牺牲 Precision 的前提下，同时降低 FID、提升 IS 和 Recall，表明其改善了生成分布对真实分布的覆盖，而非简单的权衡。

该改进在强模型和少步数场景下优势更明显，揭示了未来模型优化的新路径。 在已接近性能极限的 SiT-XL/2 等模型上，C²FG 仍能带来显著提升，说明剩余误差更多源于引导机制而非模型能力。在少步数推理时，动态引导的优势被放大，更具实用价值。

研究标志着生成模型的发展重点正从规模驱动转向对内部生成机制的精细理解与设计。 C²FG 的成功表明，下一阶段的竞争可能不在于把模型做得更大，而在于更精确地理解并控制生成过程本身，这为后续研究提供了新的视角和思路。

💬 文章金句

- 过去广泛使用的 guidance 方式，本质上默认生成过程中的条件引导强度可以保持固定，但真实的 diffusion 过程并不是静止的，模型在不同阶段对条件信息的依赖程度并不一样。

C²FG 代表的不只是一次技术修补，而是一种研究视角的变化。它提醒行业，下一阶段真正重要的问题，可能不再只是把模型做得更大，而是更精确地理解生成过程内部到底发生了什么，并据此重新设计控制方式。
在模型已经很强的情况下，仍然能够在‘更真实’和‘更丰富’之间取得更好的平衡，这一点本身就说明问题不在模型能力，而在 guidance 机制。
研究团队证明了，未来提升生成模型的效果，并不一定只能依赖更大的模型、更多的数据或更长的训练时间，也可以来自对生成过程中引导机制的重新设计。
这个结论不仅能帮助后续研究找到更合理的设计思路，也有机会让现有生成系统以比较低的成本得到升级。

📊 文章信息

AI 初评：87

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3742

标签：扩散模型, Classifier-Free Guidance, C²FG, 图像生成, CVPR 2026

阅读完整文章

上交大 x vivo 团队：一个简单改动，让 diffusion 全面提升丨 CVPR 2026

🤖 問 AI