DeepSeek 联合北大、清华开源了基于视觉基元推理的多模态技术,通过将边界框和坐标点作为思考单元,以极低的 KV Cache 开销在空间推理任务上实现断层式领先。
📝 详细摘要
本文详细介绍了 DeepSeek 联合北京大学、清华大学最新开源的多模态技术「Thinking with Visual Primitives」(以视觉原语思考)。文章指出,当前多模态大模型在复杂空间推理任务中频繁出现逻辑崩塌,根本原因在于「指代鸿沟」——自然语言的模糊性与视觉空间的精确性之间存在本质矛盾。受人类用手指指向目标来辅助思考的启发,该技术将边界框和坐标点提升为与语言 token 同级的「最小思考单元」,让模型在推理过程中「边指边想」。模型以 DeepSeek-V4-Flash 为语言骨干,通过极致压缩的视觉架构,在仅使用约 90 个 KV Cache 视觉 token 的情况下,性能比肩 GPT-5.4、Claude-Sonnet-4.6 等前沿模型。文章详细阐述了五阶段后训练流程、四大推理场景的冷启动数据构造方法,以及精细化的 Reward Model 设计。在计数、空间推理、迷宫导航和路径追踪等基准测试中,该模型取得了显著领先的成绩,尤其在拓扑推理任务上形成了断层式领先。
💡 主要观点
- 提出「视觉基元推理」框架,将边界框和坐标点作为思考单元,解决多模态模型的指代鸿沟问题。 自然语言描述空间关系时存在模糊性,导致推理链条与图像实体脱节。该框架让模型在推理过程中直接输出视觉锚点,实现「边指边想」,大幅提升空间推理的准确性。
💬 文章金句
- 自然语言天生是模糊、连续的,而视觉空间是精确、离散的。当模型用语言描述'左边第二个红色的物体'时,它实际上已经丢失了精确的空间锚点,导致推理链条与图像实体脱节,最终引发级联幻觉。
- 模型不再是'说完再指',而是边指边想(point while it reasons)。
- 从原始像素到 KV Cache,整体压缩比高达 7,056:1。
- 在迷宫和路径追踪中,模型输出的点序列构成了可视化的推理路径。人类可以沿着这些坐标还原模型的'心路历程':何时尝试分支、何时发现死胡同、何时回溯。
📊 文章信息
AI 初评:85
来源:PaperAgent
作者:PaperAgent
分类:人工智能
语言:中文
阅读时间:14 分钟
字数:3473
标签: DeepSeek, 多模态, 视觉基元, 空间推理, KV Cache