Meta 华人发布 ATLAS，一个词搞定可泛化的视觉推理！

📌 一句话摘要

Meta AI 与香港中文大学提出 ATLAS 视觉推理范式，仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning，无需外部工具或中间图像生成，实现高效可泛化的视觉推理。

📝 详细摘要

本文介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理范式。核心创新在于使用一个离散的 Functional Token，同时承担 Agentic Operation（可解释的视觉动作语义）和 Latent Visual Reasoning Unit（模型内部推理单元）的双重角色，首次将两种范式统一。ATLAS 采用 SFT + RL 两阶段训练：第一阶段通过 ATLAS-178K 数据集让模型学会在推理链中插入 Functional Token；第二阶段通过强化学习优化 Token 使用效率，避免滥用。针对 Functional Token 稀疏性导致的梯度稀释问题，提出 LA-GRPO 算法，在 Token 级别进行梯度锚定。实验表明，ATLAS 在几何推理、空间关系、计数等任务上取得有竞争力表现，且无需外部工具、显式图像生成或额外视觉监督，可自然兼容现有自回归训练框架。

💡 主要观点

- ATLAS 用一个离散 Token 统一了 Agentic 和 Latent 两种视觉推理范式。 Functional Token 既像 Agentic 方法一样明确表示视觉操作语义，又像 Latent 方法一样在模型内部高效推理，无需外部工具或中间图像生成，兼具可解释性和轻量性。

SFT + RL 两阶段训练让模型学会正确使用 Functional Token。 第一阶段通过 ATLAS-178K 数据集进行监督微调，让模型学会在推理链中插入 Functional Token；第二阶段通过强化学习优化 Token 使用效率，奖励合理使用并惩罚滥用。

LA-GRPO 算法解决了稀疏 Functional Token 的梯度稀释问题。 针对 Functional Token 在推理序列中占比极小导致的梯度信号被稀释问题，LA-GRPO 在 Token 级别进行梯度锚定，强化关键 Token 的生成概率，提升学习效率。

💬 文章金句

- One Word is Enough for Both 的真正含义是一个 word，既是操作，也是思考。

这些 Token 不需要额外的视觉监督，也不需要改变模型架构，就像普通词一样，通过 Next-Token Prediction 被模型生成。
当模型能够用一个 word 完成视觉操作，在保证可扩展性、泛化性、可解释性的同时，避免冗长的推理过程和额外的中间监督，实现最简洁高效的推理预测。

📊 文章信息

AI 初评：85

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：15 分钟

字数：3512

标签： ATLAS, 视觉推理, Functional Token, Agentic Reasoning, Latent Reasoning

阅读完整文章

Meta 华人发布 ATLAS，一个词搞定可泛化的视觉推理！

🤖 問 AI