Z Tech｜一个词就能视觉推理？Meta 华人颠覆性提出 ATLAS 新范式

📌 一句话摘要

Meta AI 与港中文提出 ATLAS 新范式，仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning，无需外部工具或中间图像生成，实现高效视觉推理。

📝 详细摘要

文章介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理新范式。ATLAS 的核心创新在于使用一个离散的 Functional Token 同时扮演 Agentic Operation 和 Latent Visual Reasoning Unit 两种角色，无需外部工具、不显式生成中间图像，也不需要额外的视觉监督信号。文章详细阐述了 ATLAS 如何通过 SFT + RL 两阶段训练流程让模型学会使用 Functional Tokens，并提出了 LA-GRPO 方法解决稀疏 Token 的梯度稀释问题。实验结果表明，ATLAS 在复杂几何推理、空间关系、计数等任务上取得了有竞争力的表现，同时保持了高效性和可扩展性。注意力分析进一步证实，Functional Token 确实能引导模型关注图像中的相关区域。

💡 主要观点

- ATLAS 用一个离散 Token 统一了 Agentic 和 Latent Visual Reasoning 两种范式。 Functional Token 既像 Agentic 方法一样明确表示视觉操作语义，又完全存在于模型内部，无需外部工具或显式图像生成，保持了 Latent 方法的高效性。

ATLAS 采用 SFT + RL 两阶段训练流程让模型学会使用 Functional Tokens。 第一阶段通过 ATLAS-178K 数据集进行监督微调，让模型学会在何时插入视觉动作 Token；第二阶段通过强化学习优化 Token 使用，避免滥用和 Token Spam。

LA-GRPO 解决了稀疏 Functional Tokens 的梯度稀释问题。 在 GRPO 基础上对 Functional Token 位置进行 Token-level Anchor，强化关键 Token 的梯度更新，让模型更精准地学习这些稀疏但重要的视觉操作。

💬 文章金句

- 一个简单的离散 Token（Functional Token）可以同时承担几种核心角色：作为 Agentic Operation，它高效地告诉我们模型正在执行什么视觉操作；作为 Latent Visual Reasoning Unit，它又能在模型内部高效参与推理。

One word is enough for both 的真正含义是一个 word，既是操作，也是思考。
不是所有词都一样重要。真正触发视觉操作的那个 word，需要被更精准地学习。

📊 文章信息

AI 初评：86

来源：Z Potentials

作者：Z Potentials

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3464

标签： ATLAS, 视觉推理, Functional Token, Meta AI, Agentic Reasoning

阅读完整文章

Z Tech｜一个词就能视觉推理？Meta 华人颠覆性提出 ATLAS 新范式

🤖 問 AI