DeepSeek 全新多模态技术开源：Thinking with Visual Primitives

📌 一句话摘要

DeepSeek 联合北大、清华开源了基于视觉基元推理的多模态技术，通过将边界框和坐标点作为思考单元，以极低的 KV Cache 开销在空间推理任务上实现断层式领先。

📝 详细摘要

本文详细介绍了 DeepSeek 联合北京大学、清华大学最新开源的多模态技术「Thinking with Visual Primitives」（以视觉原语思考）。文章指出，当前多模态大模型在复杂空间推理任务中频繁出现逻辑崩塌，根本原因在于「指代鸿沟」——自然语言的模糊性与视觉空间的精确性之间存在本质矛盾。受人类用手指指向目标来辅助思考的启发，该技术将边界框和坐标点提升为与语言 token 同级的「最小思考单元」，让模型在推理过程中「边指边想」。模型以 DeepSeek-V4-Flash 为语言骨干，通过极致压缩的视觉架构，在仅使用约 90 个 KV Cache 视觉 token 的情况下，性能比肩 GPT-5.4、Claude-Sonnet-4.6 等前沿模型。文章详细阐述了五阶段后训练流程、四大推理场景的冷启动数据构造方法，以及精细化的 Reward Model 设计。在计数、空间推理、迷宫导航和路径追踪等基准测试中，该模型取得了显著领先的成绩，尤其在拓扑推理任务上形成了断层式领先。

💡 主要观点

- 提出「视觉基元推理」框架，将边界框和坐标点作为思考单元，解决多模态模型的指代鸿沟问题。 自然语言描述空间关系时存在模糊性，导致推理链条与图像实体脱节。该框架让模型在推理过程中直接输出视觉锚点，实现「边指边想」，大幅提升空间推理的准确性。

通过极致压缩的视觉架构，以极低的 KV Cache 开销实现高性能。 模型采用 14×14 Patch Embedding、3×3 空间压缩和 Compressed Sparse Attention 机制，对 800×800 的输入仅保留约 90 个视觉 KV Cache 条目，远低于 GPT-5.4 等模型，同时性能比肩甚至超越它们。

设计「先训专家，再合并」的五阶段后训练流程，有效融合不同视觉基元的能力。 分别针对边界框和坐标点训练专家模型，再通过统一拒绝采样微调和在线蒸馏合并，避免了模态冲突，实现了单一模型对多种视觉基元的灵活运用。

在拓扑推理任务上形成断层式领先，开辟了多模态模型的新能力边界。 在迷宫导航和路径追踪等任务上，该模型以 66.9% 和 56.7% 的准确率大幅领先次优模型（50.6% 和 46.5%），证明了视觉基元推理在复杂空间推理中的巨大潜力。

💬 文章金句

- 自然语言天生是模糊、连续的，而视觉空间是精确、离散的。当模型用语言描述'左边第二个红色的物体'时，它实际上已经丢失了精确的空间锚点，导致推理链条与图像实体脱节，最终引发级联幻觉。

模型不再是'说完再指'，而是边指边想（point while it reasons）。
从原始像素到 KV Cache，整体压缩比高达 7，056:1。
在迷宫和路径追踪中，模型输出的点序列构成了可视化的推理路径。人类可以沿着这些坐标还原模型的'心路历程'：何时尝试分支、何时发现死胡同、何时回溯。

📊 文章信息

AI 初评：85

来源：PaperAgent

作者：PaperAgent

分类：人工智能

语言：中文

阅读时间：14 分钟

字数：3473

标签： DeepSeek, 多模态, 视觉基元, 空间推理, KV Cache

阅读完整文章

DeepSeek 全新多模态技术开源：Thinking with Visual Primitives

🤖 問 AI