今年 CVPR 看点是广东：何恺明再获至高大奖，广工大打破大厂名校垄断

📌 一句话摘要

CVPR 2026 奖项揭晓，最佳论文 D4RT 实现动态 4D 场景高效重建，华人学者再次霸榜，广东工业大学本科生团队以 ChordEdit 获最佳学生论文提名，成为本届最大亮点。

📝 详细摘要

本文详细报道了 CVPR 2026 在丹佛颁发的全部重磅奖项。最佳论文由 Google DeepMind 联合 UCL、牛津的 D4RT 获得，该模型从单段视频中高效重建动态 4D 场景，速度比去年最佳论文 VGGT 快约 9 倍。最佳论文荣誉提名授予 Meta 的 SAM 3D（单图 3D 重建基座模型）和英伟达的 NitroGen（通用游戏智能体大模型）。最佳学生论文由清华×微软的全华人团队 TRELLIS.2 获得，其 4B 参数 3D 生成模型采用新型稀疏体素结构 O-Voxel。最佳学生论文提名 ChordEdit 出自广东工业大学、深圳大学、北京大学等纯国内高校团队，一作为本科生，解决了一步式文生图模型的编辑难题。时间检验奖（Longuet-Higgins Prize）同时授予 2016 年的 ResNet 和 YOLO v1。文章还介绍了 PAMI 人物奖获奖者，并重点分析了本届大会的「华人含量」——中国作者数量断层第一，几乎所有获奖论文都有华人面孔。

💡 主要观点

- D4RT 以按需查询范式实现动态 4D 重建的速度与精度双突破。 不同于传统逐帧解码的笨办法，D4RT 将视频压缩为全局场景表示，通过轻量解码器按需查询任意点在任意时刻的三维位置，在 A100 上达到 200+ FPS，比 VGGT 快约 9 倍，精度反超。

TRELLIS.2 用 O-Voxel 结构突破 3D 生成中复杂拓扑与精细外观的瓶颈。 该模型将几何与外观（含 PBR 材质）同时编码进新型稀疏体素结构，配合 40 亿参数 flow-matching 大模型，实现了对开放面、非流形等刁钻拓扑的稳定建模，推理速度快且质量显著领先。

ChordEdit 以最优传输理论赋予一步式模型实时编辑能力。 团队将图像编辑重新表述为源文本与目标文本分布间的最优传输问题，基于动态最优传输理论推出低能量控制策略，使原本「快但难编辑」的单步推理模型首次具备实时、稳定的文本引导编辑能力。

华人学者在本届 CVPR 中占据绝对主导地位。 中国作者以 23233 人断层第一，是第二名美国（7556）的三倍；审稿人同样中国最多。从最佳论文到时间检验奖，几乎所有获奖论文都有华人面孔，广东工业大学本科生团队更是打破了名校大厂的垄断。

💬 文章金句

- D4RT 则换了个思路：把「逐帧把所有东西都解码一遍」的笨办法，改成「你问哪儿、我答哪儿」的按需查询。

这届 CVPR，美国丹佛举办，但粤是广东圆了。
ResNet 用残差连接破解了深层网络「越深越难训」的死结，让上百层的网络真正可训。

📊 文章信息

AI 初评：86

来源：量子位

作者：听雨

分类：人工智能

语言：中文

阅读时间：21 分钟

字数：5126

标签：计算机视觉, CVPR, AI 研究, 3D 重建, AI 生成

阅读完整文章

今年 CVPR 看点是广东：何恺明再获至高大奖，广工大打破大厂名校垄断

🤖 問 AI