DeepSeek 发布技术报告,提出在推理轨迹中插入空间标记(点、框)来增强多模态空间推理能力,并通过视觉 Token 压缩实现高效推理。
📝 详细摘要
这条推文介绍了 DeepSeek 在多模态推理方面的最新技术进展。核心创新在于将空间标记(点、框)直接嵌入推理轨迹,使模型能够像人类一样通过「指认」具体位置来完成计数和空间推理任务。底层模型为 DeepSeek-V4-Flash,采用每 4 个视觉 Token 压缩为 1 个 KV Cache 条目的策略,在节省 Token 的同时保持推理能力。在计数和空间推理测试中,该模型以更小的规模和更少的 Token 消耗,取得了与 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等顶级模型相当的成绩。技术报告已发布在 GitHub,后续还将开放评测基准和冷启动数据。
📊 文章信息
AI 初评:85
来源:Geek(@geekbb)
作者:Geek
分类:人工智能
语言:中文
阅读时间:2 分钟
字数:263
标签: DeepSeek, 多模态, 空间推理, 视觉 Token 压缩, DeepSeek-V4-Flash