← 回總覽

ICML 2026|首个视觉语言模型并行思考框架,一文解析内在机制

📅 2026-05-24 15:00 机器之心 人工智能 2 分鐘 1418 字 評分: 88
并行思考 视觉语言模型 注意力机制 位置编码 视觉幻觉
📌 一句话摘要 本文介绍了首个面向视觉语言模型的并行思考框架 Visual Para-Thinker,通过以视觉为中心的路径划分和创新的注意力与位置编码机制,有效缓解了长序列推理中的注意力漂移和视觉幻觉问题。 📝 详细摘要 本文详细介绍了 Visual Para-Thinker,这是首个针对大规模视觉语言模型的并行思考框架。文章首先指出当前测试时扩展范式普遍增加推理长度,但易导致探索僵化和视觉任务中的注意力漂移与幻觉。为此,作者提出以视觉为中心的并行推理路径划分方式,包括块划分和扫描划分,并采用混合训练策略。框架包含并行思考阶段和总结阶段,通过路径感知注意力(Pa-Attention)保证

📌 一句话摘要

本文介绍了首个面向视觉语言模型的并行思考框架 Visual Para-Thinker,通过以视觉为中心的路径划分和创新的注意力与位置编码机制,有效缓解了长序列推理中的注意力漂移和视觉幻觉问题。

📝 详细摘要

本文详细介绍了 Visual Para-Thinker,这是首个针对大规模视觉语言模型的并行思考框架。文章首先指出当前测试时扩展范式普遍增加推理长度,但易导致探索僵化和视觉任务中的注意力漂移与幻觉。为此,作者提出以视觉为中心的并行推理路径划分方式,包括块划分和扫描划分,并采用混合训练策略。框架包含并行思考阶段和总结阶段,通过路径感知注意力(Pa-Attention)保证隔离性,通过将不同路径的 position id 映射到相同区间保证无偏性,并通过可学习并行旋转位置编码(LPRoPE)保证可区分性。实验在计数、视觉搜索、幻觉和视觉定位等任务上验证了有效性,例如在 V* 任务上 3B 模型提升 12.6 个点。文章还探讨了不同视觉任务对划分模式的偏好,并展望了将并行思考与强化学习等结合的未来方向。

💡 主要观点

- 提出首个视觉语言模型并行思考框架 Visual Para-Thinker,以解决长序列推理中的注意力漂移问题。 针对视觉任务中推理序列拉长导致模型对视觉特征注意力被稀释、引发幻觉的挑战,该框架通过并行推理路径分散注意力,有效缓解了这一问题。

提出以视觉为中心的路径划分方式:块划分和扫描划分。 块划分将图像分为不同子区域分配给各推理路径,实现显式注意力分配;扫描划分通过不同扫描顺序改变注意力模式,实现隐式分配。两者各有优劣,混合训练可优势互补。
创新性地设计了 Pa-Attention 和 LPRoPE 机制,保证并行路径的隔离性、无偏性和可区分性。 Pa-Attention 通过特殊 token 隔离不同路径上下文;LPRoPE 将可学习路径编码与旋转位置编码结合,在保证无偏性的同时维持了路径间的可区分性,避免了传统方法的位置偏差。

💬 文章金句

- 随着推理序列的拉长,模型对视觉特征的注意力被不断稀释,导致 '注意力漂移',进而引发严重的视觉幻觉。

  • 我们认为其本质在于对视觉 token 注意力的重新分配。
  • 块划分方式通过将不同图像区域分配给不同路径,实现了显式的注意力分配;而扫描划分方式则通过改变模型对视觉 token 的注意顺序与方式,形成一种隐式的注意力分配机制。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:11 分钟

字数:2623

标签: 并行思考, 视觉语言模型, 注意力机制, 位置编码, 视觉幻觉

阅读完整文章

查看原文 → 發佈: 2026-05-24 15:00:00 收錄: 2026-05-24 18:00:44

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。