谷歌这把「香蕉」太狠了！何恺明等引爆视觉 Transformer 时刻

📌 一句话摘要

谷歌联合何恺明、谢赛宁等发布 Vision Banana，通过将视觉理解和生成统一为像素生成任务，实现了单一模型在多项视觉基准上的 SOTA 表现，标志着视觉 AI 的 Transformer 时刻。

📝 详细摘要

文章报道了谷歌 DeepMind 联合何恺明、谢赛宁等知名研究者发布的 Vision Banana 模型。该模型的核心创新在于抛弃了传统计算机视觉中为检测、分割、生成等不同任务设计专用架构的范式，转而将所有视觉任务统一为「生成像素」的过程。Vision Banana 基于基础模型 Nano Banana Pro，通过轻量级的指令微调实现，在保持强大生成能力的同时，在目标检测、语义分割等理解任务上也达到了 SOTA 水平。文章认为，这证明了强大的生成能力可以反哺理解精度，是视觉 AI 领域从「识别」范式向「想象」范式转变的关键一步，类似于 Transformer 在 NLP 领域带来的统一化变革。

💡 主要观点

- Vision Banana 将视觉理解和生成统一为像素生成任务。 模型不再为检测、分割、生成等任务设计专用架构和损失函数，而是将所有视觉问题的答案都输出为一张图，实现了任务层面的彻底统一。

强大的生成能力能反哺理解精度。 模型通过在大量图像上进行生成预训练，自发学会了深层的语义对齐，使得其在目标检测、语义分割等理解任务上的表现超越了传统的专用模型。

采用极低比例数据混入的轻量级指令微调策略。 研究团队并未从零训练，而是在基础生成模型上，仅混入少量「可逆格式」任务数据进行微调，既保留了生成本性，又对齐了物理世界，体现了工程上的极简主义。

💬 文章金句

- 谷歌把这些钥匙全扔了。

理解，本质上只是生成过程中的一次「对齐」。
Vision Banana 宣告了 AI 视觉领域的「哥白尼革命」：它彻底抛弃了过去 20 年的「识别」范式，转而用「想象」来征服现实。
最好的视觉模型，不应该是一个完美的分类器，而应该是一个拥有完美想象力的观察者。

📊 文章信息

AI 初评：88

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2896

标签： Vision Banana, 视觉 Transformer, 统一模型, 生成式 AI, 何恺明

阅读完整文章

谷歌这把「香蕉」太狠了！何恺明等引爆视觉 Transformer 时刻

🤖 問 AI