← 回總覽

DeepSeek 全新多模态技术开源:Thinking with Visual Primitives

📅 2026-05-01 00:06 PaperAgent 人工智能 2 分鐘 1745 字 評分: 85
DeepSeek 多模态 视觉基元 空间推理 KV Cache
📌 一句话摘要 DeepSeek 联合北大、清华开源了基于视觉基元推理的多模态技术,通过将边界框和坐标点作为思考单元,以极低的 KV Cache 开销在空间推理任务上实现断层式领先。 📝 详细摘要 本文详细介绍了 DeepSeek 联合北京大学、清华大学最新开源的多模态技术「Thinking with Visual Primitives」(以视觉原语思考)。文章指出,当前多模态大模型在复杂空间推理任务中频繁出现逻辑崩塌,根本原因在于「指代鸿沟」——自然语言的模糊性与视觉空间的精确性之间存在本质矛盾。受人类用手指指向目标来辅助思考的启发,该技术将边界框和坐标点提升为与语言 token 同级的

📌 一句话摘要

DeepSeek 联合北大、清华开源了基于视觉基元推理的多模态技术,通过将边界框和坐标点作为思考单元,以极低的 KV Cache 开销在空间推理任务上实现断层式领先。

📝 详细摘要

本文详细介绍了 DeepSeek 联合北京大学、清华大学最新开源的多模态技术「Thinking with Visual Primitives」(以视觉原语思考)。文章指出,当前多模态大模型在复杂空间推理任务中频繁出现逻辑崩塌,根本原因在于「指代鸿沟」——自然语言的模糊性与视觉空间的精确性之间存在本质矛盾。受人类用手指指向目标来辅助思考的启发,该技术将边界框和坐标点提升为与语言 token 同级的「最小思考单元」,让模型在推理过程中「边指边想」。模型以 DeepSeek-V4-Flash 为语言骨干,通过极致压缩的视觉架构,在仅使用约 90 个 KV Cache 视觉 token 的情况下,性能比肩 GPT-5.4、Claude-Sonnet-4.6 等前沿模型。文章详细阐述了五阶段后训练流程、四大推理场景的冷启动数据构造方法,以及精细化的 Reward Model 设计。在计数、空间推理、迷宫导航和路径追踪等基准测试中,该模型取得了显著领先的成绩,尤其在拓扑推理任务上形成了断层式领先。

💡 主要观点

- 提出「视觉基元推理」框架,将边界框和坐标点作为思考单元,解决多模态模型的指代鸿沟问题。 自然语言描述空间关系时存在模糊性,导致推理链条与图像实体脱节。该框架让模型在推理过程中直接输出视觉锚点,实现「边指边想」,大幅提升空间推理的准确性。

通过极致压缩的视觉架构,以极低的 KV Cache 开销实现高性能。 模型采用 14×14 Patch Embedding、3×3 空间压缩和 Compressed Sparse Attention 机制,对 800×800 的输入仅保留约 90 个视觉 KV Cache 条目,远低于 GPT-5.4 等模型,同时性能比肩甚至超越它们。
设计「先训专家,再合并」的五阶段后训练流程,有效融合不同视觉基元的能力。 分别针对边界框和坐标点训练专家模型,再通过统一拒绝采样微调和在线蒸馏合并,避免了模态冲突,实现了单一模型对多种视觉基元的灵活运用。
在拓扑推理任务上形成断层式领先,开辟了多模态模型的新能力边界。 在迷宫导航和路径追踪等任务上,该模型以 66.9% 和 56.7% 的准确率大幅领先次优模型(50.6% 和 46.5%),证明了视觉基元推理在复杂空间推理中的巨大潜力。

💬 文章金句

- 自然语言天生是模糊、连续的,而视觉空间是精确、离散的。当模型用语言描述'左边第二个红色的物体'时,它实际上已经丢失了精确的空间锚点,导致推理链条与图像实体脱节,最终引发级联幻觉。

  • 模型不再是'说完再指',而是边指边想(point while it reasons)。
  • 从原始像素到 KV Cache,整体压缩比高达 7,056:1。
  • 在迷宫和路径追踪中,模型输出的点序列构成了可视化的推理路径。人类可以沿着这些坐标还原模型的'心路历程':何时尝试分支、何时发现死胡同、何时回溯。

📊 文章信息

AI 初评:85

来源:PaperAgent

作者:PaperAgent

分类:人工智能

语言:中文

阅读时间:14 分钟

字数:3473

标签: DeepSeek, 多模态, 视觉基元, 空间推理, KV Cache

阅读完整文章

查看原文 → 發佈: 2026-05-01 00:06:00 收錄: 2026-05-01 20:00:33

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。