何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破

📌 一句话摘要

本文系统梳理了何恺明团队在 CVPR 2026 上发表的五篇论文，涵盖图像生成、视觉推理和自监督学习，核心论点是扩散模型并非终点，流匹配等更高效的生成范式正在崛起。

📝 详细摘要

本文对何恺明团队近期在 CVPR 2026 上发表的五篇论文进行了全景式梳理和深度解读。文章指出，这些研究共同挑战了当前图像生成领域对扩散模型的路径依赖。核心内容包括：JiT 论文提出让扩散模型直接预测干净图像而非噪声，在 ImageNet 512×512 上实现 FID 1.78；VARC 论文用仅 18M 参数的纯视觉 Transformer 在 ARC 视觉推理任务上达到人类水平；BiFlow 通过放弃归一化流的精确可逆性约束，实现 700 倍加速和 FID 2.39；iMF 论文通过三项系统性改进，在无蒸馏条件下实现单步 FID 1.72，超越所有蒸馏方法；Pixo 论文则在 20 亿规模数据上证明像素级自监督学习可与潜空间方法正面竞争。文章认为，这些工作共同指向一个战略判断：扩散模型是过渡阶段，流匹配等更高效的范式正在成为新的共识。

💡 主要观点

- JiT 论文挑战了扩散模型预测噪声的默认范式，直接预测干净图像。 通过让网络直接预测在图像流形上的干净图像 x，而非高维噪声 ε，JiT 在 ImageNet 512×512 上实现 FID 1.78，且无需 VAE Tokenizer 和蒸馏，证明了更简单的训练目标也能带来质量提升。

VARC 用纯视觉模型在 ARC 推理任务上达到人类水平，挑战了语言模型的主导地位。 仅 18M 参数的 ViT 模型，通过画布机制和测试时训练，在 ARC-1 上达到 60.4% 准确率，与人类平均水平持平，表明视觉推理不一定需要语言能力。

BiFlow 通过放弃精确逆约束，释放了归一化流在图像生成上的效率潜力。 逆向过程使用并行 Transformer 架构独立训练，实现单步生成，在 ImageNet 256×256 上 FID 2.39，生成速度相比传统方法加速约 700 倍。

iMF 通过三项系统性修复，在无蒸馏条件下实现了超越所有蒸馏方法的单步生成质量。 通过替换训练目标为瞬时速度损失、引入灵活 CFG 和高效条件编码，iMF 在 1-NFE 下 FID 1.72，打破了高质量单步生成必须依赖蒸馏的行业假设。

Pixo 在 20 亿规模数据上证明像素级自监督学习仍具竞争力。 通过增强预训练任务、架构和训练策略，Pixo 在多个下游任务上与潜空间方法 DINOv3 正面竞争，表明像素监督的边界远未到达。

💬 文章金句

- 在每一个被默认的技术选择背后，到底藏着多少被低估的优化空间？

既然 x（干净图像）在图像流形上，那就让网络直接预测 x。
一个参数量只有顶级 LLM 几千分之一的纯视觉模型，在视觉推理任务上达到了与人类相当的水平。
高质量单步生成，不需要蒸馏。
扩散模型不是终点，而是某个更高效范式出现之前的过渡阶段。

📊 文章信息

AI 初评：85

来源：AI科技评论

作者：AI科技评论

分类：人工智能

语言：中文

阅读时间：25 分钟

字数：6137

标签：何恺明, CVPR 2026, 流匹配, 扩散模型, 图像生成

阅读完整文章

何恺明团队论文全景扫描：一场关于「生成范式」的多角度突破 | CVPR 2026

🤖 問 AI