Meta AI 与香港中文大学提出 ATLAS 视觉推理范式,仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning,无需外部工具或中间图像生成,实现高效可泛化的视觉推理。
📝 详细摘要
本文介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理范式。核心创新在于使用一个离散的 Functional Token,同时承担 Agentic Operation(可解释的视觉动作语义)和 Latent Visual Reasoning Unit(模型内部推理单元)的双重角色,首次将两种范式统一。ATLAS 采用 SFT + RL 两阶段训练:第一阶段通过 ATLAS-178K 数据集让模型学会在推理链中插入 Functional Token;第二阶段通过强化学习优化 Token 使用效率,避免滥用。针对 Functional Token 稀疏性导致的梯度稀释问题,提出 LA-GRPO 算法,在 Token 级别进行梯度锚定。实验表明,ATLAS 在几何推理、空间关系、计数等任务上取得有竞争力表现,且无需外部工具、显式图像生成或额外视觉监督,可自然兼容现有自回归训练框架。
💡 主要观点
- ATLAS 用一个离散 Token 统一了 Agentic 和 Latent 两种视觉推理范式。 Functional Token 既像 Agentic 方法一样明确表示视觉操作语义,又像 Latent 方法一样在模型内部高效推理,无需外部工具或中间图像生成,兼具可解释性和轻量性。
💬 文章金句
- One Word is Enough for Both 的真正含义是一个 word,既是操作,也是思考。
- 这些 Token 不需要额外的视觉监督,也不需要改变模型架构,就像普通词一样,通过 Next-Token Prediction 被模型生成。
- 当模型能够用一个 word 完成视觉操作,在保证可扩展性、泛化性、可解释性的同时,避免冗长的推理过程和额外的中间监督,实现最简洁高效的推理预测。
📊 文章信息
AI 初评:85
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:15 分钟
字数:3512
标签: ATLAS, 视觉推理, Functional Token, Agentic Reasoning, Latent Reasoning