← 回總覽

Meta 华人发布 ATLAS,一个词搞定可泛化的视觉推理!

📅 2026-05-22 10:00 机器之心 人工智能 2 分鐘 1591 字 評分: 85
ATLAS 视觉推理 Functional Token Agentic Reasoning Latent Reasoning
📌 一句话摘要 Meta AI 与香港中文大学提出 ATLAS 视觉推理范式,仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning,无需外部工具或中间图像生成,实现高效可泛化的视觉推理。 📝 详细摘要 本文介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理范式。核心创新在于使用一个离散的 Functional Token,同时承担 Agentic Operation(可解释的视觉动作语义)和 Latent Visual Reasoning Unit(模型内部推理单元)的双重角色,首次将两种范式统一。ATLAS 采用 SFT

📌 一句话摘要

Meta AI 与香港中文大学提出 ATLAS 视觉推理范式,仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning,无需外部工具或中间图像生成,实现高效可泛化的视觉推理。

📝 详细摘要

本文介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理范式。核心创新在于使用一个离散的 Functional Token,同时承担 Agentic Operation(可解释的视觉动作语义)和 Latent Visual Reasoning Unit(模型内部推理单元)的双重角色,首次将两种范式统一。ATLAS 采用 SFT + RL 两阶段训练:第一阶段通过 ATLAS-178K 数据集让模型学会在推理链中插入 Functional Token;第二阶段通过强化学习优化 Token 使用效率,避免滥用。针对 Functional Token 稀疏性导致的梯度稀释问题,提出 LA-GRPO 算法,在 Token 级别进行梯度锚定。实验表明,ATLAS 在几何推理、空间关系、计数等任务上取得有竞争力表现,且无需外部工具、显式图像生成或额外视觉监督,可自然兼容现有自回归训练框架。

💡 主要观点

- ATLAS 用一个离散 Token 统一了 Agentic 和 Latent 两种视觉推理范式。 Functional Token 既像 Agentic 方法一样明确表示视觉操作语义,又像 Latent 方法一样在模型内部高效推理,无需外部工具或中间图像生成,兼具可解释性和轻量性。

SFT + RL 两阶段训练让模型学会正确使用 Functional Token。 第一阶段通过 ATLAS-178K 数据集进行监督微调,让模型学会在推理链中插入 Functional Token;第二阶段通过强化学习优化 Token 使用效率,奖励合理使用并惩罚滥用。
LA-GRPO 算法解决了稀疏 Functional Token 的梯度稀释问题。 针对 Functional Token 在推理序列中占比极小导致的梯度信号被稀释问题,LA-GRPO 在 Token 级别进行梯度锚定,强化关键 Token 的生成概率,提升学习效率。

💬 文章金句

- One Word is Enough for Both 的真正含义是一个 word,既是操作,也是思考。

  • 这些 Token 不需要额外的视觉监督,也不需要改变模型架构,就像普通词一样,通过 Next-Token Prediction 被模型生成。
  • 当模型能够用一个 word 完成视觉操作,在保证可扩展性、泛化性、可解释性的同时,避免冗长的推理过程和额外的中间监督,实现最简洁高效的推理预测。

📊 文章信息

AI 初评:85

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:15 分钟

字数:3512

标签: ATLAS, 视觉推理, Functional Token, Agentic Reasoning, Latent Reasoning

阅读完整文章

查看原文 → 發佈: 2026-05-22 10:00:00 收錄: 2026-05-22 18:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。