本文介绍了首个面向视觉语言模型的并行思考框架 Visual Para-Thinker,通过以视觉为中心的路径划分和创新的注意力与位置编码机制,有效缓解了长序列推理中的注意力漂移和视觉幻觉问题。
📝 详细摘要
本文详细介绍了 Visual Para-Thinker,这是首个针对大规模视觉语言模型的并行思考框架。文章首先指出当前测试时扩展范式普遍增加推理长度,但易导致探索僵化和视觉任务中的注意力漂移与幻觉。为此,作者提出以视觉为中心的并行推理路径划分方式,包括块划分和扫描划分,并采用混合训练策略。框架包含并行思考阶段和总结阶段,通过路径感知注意力(Pa-Attention)保证隔离性,通过将不同路径的 position id 映射到相同区间保证无偏性,并通过可学习并行旋转位置编码(LPRoPE)保证可区分性。实验在计数、视觉搜索、幻觉和视觉定位等任务上验证了有效性,例如在 V* 任务上 3B 模型提升 12.6 个点。文章还探讨了不同视觉任务对划分模式的偏好,并展望了将并行思考与强化学习等结合的未来方向。
💡 主要观点
- 提出首个视觉语言模型并行思考框架 Visual Para-Thinker,以解决长序列推理中的注意力漂移问题。 针对视觉任务中推理序列拉长导致模型对视觉特征注意力被稀释、引发幻觉的挑战,该框架通过并行推理路径分散注意力,有效缓解了这一问题。
💬 文章金句
- 随着推理序列的拉长,模型对视觉特征的注意力被不断稀释,导致 '注意力漂移',进而引发严重的视觉幻觉。
- 我们认为其本质在于对视觉 token 注意力的重新分配。
- 块划分方式通过将不同图像区域分配给不同路径,实现了显式的注意力分配;而扫描划分方式则通过改变模型对视觉 token 的注意顺序与方式,形成一种隐式的注意力分配机制。
📊 文章信息
AI 初评:88
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:11 分钟
字数:2623
标签: 并行思考, 视觉语言模型, 注意力机制, 位置编码, 视觉幻觉