DeepSeek 多模态新进展：空间标记推理与高效视觉 Token 压缩

📅 2026-04-30 20:41 Geek 人工智能 1 分鐘 742 字評分: 85

📌 一句话摘要 DeepSeek 发布技术报告，提出在推理轨迹中插入空间标记（点、框）来增强多模态空间推理能力，并通过视觉 Token 压缩实现高效推理。 📝 详细摘要这条推文介绍了 DeepSeek 在多模态推理方面的最新技术进展。核心创新在于将空间标记（点、框）直接嵌入推理轨迹，使模型能够像人类一样通过「指认」具体位置来完成计数和空间推理任务。底层模型为 DeepSeek-V4-Flash，采用每 4 个视觉 Token 压缩为 1 个 KV Cache 条目的策略，在节省 Token 的同时保持推理能力。在计数和空间推理测试中，该模型以更小的规模和更少的 Token 消耗，取得了与

📌 一句话摘要

DeepSeek 发布技术报告，提出在推理轨迹中插入空间标记（点、框）来增强多模态空间推理能力，并通过视觉 Token 压缩实现高效推理。

📝 详细摘要

这条推文介绍了 DeepSeek 在多模态推理方面的最新技术进展。核心创新在于将空间标记（点、框）直接嵌入推理轨迹，使模型能够像人类一样通过「指认」具体位置来完成计数和空间推理任务。底层模型为 DeepSeek-V4-Flash，采用每 4 个视觉 Token 压缩为 1 个 KV Cache 条目的策略，在节省 Token 的同时保持推理能力。在计数和空间推理测试中，该模型以更小的规模和更少的 Token 消耗，取得了与 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等顶级模型相当的成绩。技术报告已发布在 GitHub，后续还将开放评测基准和冷启动数据。

📊 文章信息

AI 初评：85

来源：Geek(@geekbb)

作者：Geek

分类：人工智能

语言：中文

阅读时间：2 分钟

字数：263

标签： DeepSeek, 多模态, 空间推理, 视觉 Token 压缩, DeepSeek-V4-Flash

阅读推文

查看原文 → 發佈: 2026-04-30 20:41:58 收錄: 2026-05-01 00:00:59

DeepSeek 多模态新进展：空间标记推理与高效视觉 Token 压缩

🤖 問 AI