← 回總覽

Z Tech|一个词就能视觉推理?Meta 华人颠覆性提出 ATLAS 新范式

📅 2026-05-17 11:37 Z Potentials 人工智能 2 分鐘 1591 字 評分: 86
ATLAS 视觉推理 Functional Token Meta AI Agentic Reasoning
📌 一句话摘要 Meta AI 与港中文提出 ATLAS 新范式,仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning,无需外部工具或中间图像生成,实现高效视觉推理。 📝 详细摘要 文章介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理新范式。ATLAS 的核心创新在于使用一个离散的 Functional Token 同时扮演 Agentic Operation 和 Latent Visual Reasoning Unit 两种角色,无需外部工具、不显式生成中间图像,也不需要额外的视觉监督信号。文章详细阐述了 ATLAS 如

📌 一句话摘要

Meta AI 与港中文提出 ATLAS 新范式,仅用一个离散 Token 统一 Agentic 与 Latent Visual Reasoning,无需外部工具或中间图像生成,实现高效视觉推理。

📝 详细摘要

文章介绍了 Meta AI 与香港中文大学联合提出的 ATLAS 视觉推理新范式。ATLAS 的核心创新在于使用一个离散的 Functional Token 同时扮演 Agentic Operation 和 Latent Visual Reasoning Unit 两种角色,无需外部工具、不显式生成中间图像,也不需要额外的视觉监督信号。文章详细阐述了 ATLAS 如何通过 SFT + RL 两阶段训练流程让模型学会使用 Functional Tokens,并提出了 LA-GRPO 方法解决稀疏 Token 的梯度稀释问题。实验结果表明,ATLAS 在复杂几何推理、空间关系、计数等任务上取得了有竞争力的表现,同时保持了高效性和可扩展性。注意力分析进一步证实,Functional Token 确实能引导模型关注图像中的相关区域。

💡 主要观点

- ATLAS 用一个离散 Token 统一了 Agentic 和 Latent Visual Reasoning 两种范式。 Functional Token 既像 Agentic 方法一样明确表示视觉操作语义,又完全存在于模型内部,无需外部工具或显式图像生成,保持了 Latent 方法的高效性。

ATLAS 采用 SFT + RL 两阶段训练流程让模型学会使用 Functional Tokens。 第一阶段通过 ATLAS-178K 数据集进行监督微调,让模型学会在何时插入视觉动作 Token;第二阶段通过强化学习优化 Token 使用,避免滥用和 Token Spam。
LA-GRPO 解决了稀疏 Functional Tokens 的梯度稀释问题。 在 GRPO 基础上对 Functional Token 位置进行 Token-level Anchor,强化关键 Token 的梯度更新,让模型更精准地学习这些稀疏但重要的视觉操作。

💬 文章金句

- 一个简单的离散 Token(Functional Token)可以同时承担几种核心角色:作为 Agentic Operation,它高效地告诉我们模型正在执行什么视觉操作;作为 Latent Visual Reasoning Unit,它又能在模型内部高效参与推理。

  • One word is enough for both 的真正含义是一个 word,既是操作,也是思考。
  • 不是所有词都一样重要。真正触发视觉操作的那个 word,需要被更精准地学习。

📊 文章信息

AI 初评:86

来源:Z Potentials

作者:Z Potentials

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3464

标签: ATLAS, 视觉推理, Functional Token, Meta AI, Agentic Reasoning

阅读完整文章

查看原文 → 發佈: 2026-05-17 11:37:00 收錄: 2026-05-17 20:00:49

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。