首测 DeepSeek 识图，结果炸了

📌 一句话摘要

本文对 DeepSeek 新上线的识图功能进行了全面的实测，涵盖画面描述、物品识别、逻辑推理等场景，展示了其基础理解能力扎实但知识库更新不足、复杂逻辑题表现欠佳的现状。

📝 详细摘要

文章作者作为灰度测试用户，对 DeepSeek 新推出的识图模式进行了 12 项详细测试。测试分为三大类：画面描述与物品识别、元素识别与逻辑推理。结果显示，DeepSeek 在基础画面描述和物品识别上表现良好，能准确描述图像细节、识别角色和场景，甚至在开启思考模式后能推断出文物的历史风格。但在识别较新的游戏或产品时，知识库更新不足导致判断错误。在元素识别和逻辑推理方面，DeepSeek 表现不佳，无法准确数出图片中的老虎数量，也无法识别隐藏数字，三道行测图形逻辑题仅答对一道。作者认为，当前识图功能更像是一个过渡期的视觉理解模块，而非原生多模态能力，但证明了 DeepSeek 团队在视觉理解上已跑通，为后续的原生多模态模型铺路。

💡 主要观点

- DeepSeek 识图在基础画面描述和物品识别上表现扎实。 能准确描述图像细节、识别角色和场景，开启思考模式后能进行深度推理，如推断出文物为清代痕都斯坦风格，与展览主题吻合。

知识库更新不足，无法识别较新的游戏或产品。 对于《Pokopia》等新游戏或小米 11 Ultra 等较新设备，DeepSeek 的知识库存在滞后，导致识别错误，但能通过逻辑推理进行部分弥补。

复杂逻辑推理和极限测试是当前短板。 在数老虎、识别隐藏数字等反色或碎块化图片测试中表现不佳，三道行测图形逻辑题仅答对一道，说明其视觉推理能力仍有待提升。

💬 文章金句

- 当所有人还在为 V4 的价格和编码能力而惊叹时，DeepSeek 突然开测识图模式，全网热议了一整年的多模态能力总算是落地了。

这个识图模式，更接近一个挂载在 DeepSeek-V4 主干上的视觉理解模块，而并非 DeepSeek-V4 本身的多模态能力。
但至少，它证明 DeepSeek 团队在视觉理解上已经跑通了，这明显是在为接下来的原生多模态大招铺路。

📊 文章信息

AI 初评：82

来源：创业邦

作者：创业邦

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2824

标签： DeepSeek, 识图, 多模态, AI 产品评测, 视觉理解

阅读完整文章

首测 DeepSeek 识图，结果炸了

🤖 問 AI