ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

📌 一句话摘要

本文介绍了首个面向视觉语言模型的并行思考框架 Visual Para-Thinker，通过以视觉为中心的路径划分和创新的注意力与位置编码机制，有效缓解了长序列推理中的注意力漂移和视觉幻觉问题。

📝 详细摘要

本文详细介绍了 Visual Para-Thinker，这是首个针对大规模视觉语言模型的并行思考框架。文章首先指出当前测试时扩展范式普遍增加推理长度，但易导致探索僵化和视觉任务中的注意力漂移与幻觉。为此，作者提出以视觉为中心的并行推理路径划分方式，包括块划分和扫描划分，并采用混合训练策略。框架包含并行思考阶段和总结阶段，通过路径感知注意力（Pa-Attention）保证隔离性，通过将不同路径的 position id 映射到相同区间保证无偏性，并通过可学习并行旋转位置编码（LPRoPE）保证可区分性。实验在计数、视觉搜索、幻觉和视觉定位等任务上验证了有效性，例如在 V* 任务上 3B 模型提升 12.6 个点。文章还探讨了不同视觉任务对划分模式的偏好，并展望了将并行思考与强化学习等结合的未来方向。

💡 主要观点

- 提出首个视觉语言模型并行思考框架 Visual Para-Thinker，以解决长序列推理中的注意力漂移问题。 针对视觉任务中推理序列拉长导致模型对视觉特征注意力被稀释、引发幻觉的挑战，该框架通过并行推理路径分散注意力，有效缓解了这一问题。

提出以视觉为中心的路径划分方式：块划分和扫描划分。 块划分将图像分为不同子区域分配给各推理路径，实现显式注意力分配；扫描划分通过不同扫描顺序改变注意力模式，实现隐式分配。两者各有优劣，混合训练可优势互补。

创新性地设计了 Pa-Attention 和 LPRoPE 机制，保证并行路径的隔离性、无偏性和可区分性。 Pa-Attention 通过特殊 token 隔离不同路径上下文；LPRoPE 将可学习路径编码与旋转位置编码结合，在保证无偏性的同时维持了路径间的可区分性，避免了传统方法的位置偏差。

💬 文章金句

- 随着推理序列的拉长，模型对视觉特征的注意力被不断稀释，导致 '注意力漂移'，进而引发严重的视觉幻觉。

我们认为其本质在于对视觉 token 注意力的重新分配。
块划分方式通过将不同图像区域分配给不同路径，实现了显式的注意力分配；而扫描划分方式则通过改变模型对视觉 token 的注意顺序与方式，形成一种隐式的注意力分配机制。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：11 分钟

字数：2623

标签：并行思考, 视觉语言模型, 注意力机制, 位置编码, 视觉幻觉

阅读完整文章

ICML 2026｜首个视觉语言模型并行思考框架，一文解析内在机制

🤖 問 AI