Meta AI 与港中文提出 ATLAS 新范式,仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning,无需外部工具或中间图像生成,实现高效视觉推理。
📝 详细摘要
文章介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理新范式。ATLAS 的核心创新在于使用一个离散的 Functional Token 同时扮演 Agentic Operation 和 Latent Visual Reasoning Unit 两种角色,无需外部工具、不显式生成中间图像,也不需要额外的视觉监督信号。文章详细阐述了 ATLAS 如何通过 SFT + RL 两阶段训练流程让模型学会使用 Functional Tokens,并提出了 LA-GRPO 方法解决稀疏 Token 的梯度稀释问题。实验结果表明,ATLAS 在复杂几何推理、空间关系、计数等任务上取得了有竞争力的表现,同时保持了高效性和可扩展性。注意力分析进一步证实,Functional Token 确实能引导模型关注图像中的相关区域。
💡 主要观点
- ATLAS 用一个离散 Token 统一了 Agentic 和 Latent Visual Reasoning 两种范式。 Functional Token 既像 Agentic 方法一样明确表示视觉操作语义,又完全存在于模型内部,无需外部工具或显式图像生成,保持了 Latent 方法的高效性。
💬 文章金句
- 一个简单的离散 Token(Functional Token)可以同时承担几种核心角色:作为 Agentic Operation,它高效地告诉我们模型正在执行什么视觉操作;作为 Latent Visual Reasoning Unit,它又能在模型内部高效参与推理。
- One word is enough for both 的真正含义是一个 word,既是操作,也是思考。
- 不是所有词都一样重要。真正触发视觉操作的那个 word,需要被更精准地学习。
📊 文章信息
AI 初评:86
来源:Z Potentials
作者:Z Potentials
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3464
标签: ATLAS, 视觉推理, Functional Token, Meta AI, Agentic Reasoning