DeepSeek 识图模式是个新模型？！一手实测在此（没错我被灰度到了）

📌 一句话摘要

本文实测了 DeepSeek 灰度测试中的识图模式，发现其背后可能是一个独立于 V4 的新视觉模型，在 OCR 和 HTML 复原等任务上表现出色，但空间推理和找不同等任务仍存在幻觉和思考过长的问题。

📝 详细摘要

文章作者在获得 DeepSeek 识图模式灰度测试资格后，对该功能进行了全面实测。核心发现包括：识图模式背后可能是一个独立于 V4 Flash/Pro 的新视觉模型；非思考模式下响应极快，但空间推理题秒错；开启深度思考后虽能正确解答，但耗时长达 4 分钟且思考过程存在过度绕圈的问题。在实用功能方面，OCR 识别纯文本和表格表现优秀，能将网页截图复原为可交互的 HTML 代码，通过隐藏图片测试，但在色盲测试中偶见翻车。文章还通过对比知识边界，推测视觉模型是独立训练的。整体而言，DeepSeek 多模态能力来得比外界预期的更快，但仍有不少精进空间。

💡 主要观点

- DeepSeek 识图模式背后可能是一个独立于 V4 的新视觉模型。 通过对比知识边界发现，视觉模型了解某些特定人物，而 V4 Flash/Pro 则不了解，暗示视觉模型是独立训练的，而非 V4 的简单扩展。

非思考模式响应极快，但复杂推理任务容易出错。 在空间推理题中，非思考模式秒答但秒错；开启深度思考后虽能正确解答，但耗时长达 4 分钟，且思考过程存在过度绕圈的问题。

实用功能表现出色，OCR 和 HTML 复原是亮点。 OCR 识别纯文本和表格准确率高，格式整齐；能将网页截图复原为可交互的 HTML 代码，按钮和链接均可正常使用。

多模态能力来得比预期更快，但仍有精进空间。 DeepSeek 在 V4 技术报告中提及的多模态整合目标，实际进展超出外界预期；但找不同等任务中幻觉较多，色盲测试偶见翻车。

💬 文章金句

- DeepSeek 识图模式背后，看上去是一个独立于 V4 flash/pro 的新模型。

非思考模式下，这个 DeepSeek 视觉模型的速度非常快，比闪电五连鞭还要快。
在思考的中段，其实 DeepSeek 已经找到了正确答案，但马上就是一个「等等」，然后……又绕了一大堆。
实测下来坦白说，DeepSeek Vision 还有不少可以精进之处。
当 DeepSeek 在 V4 的技术报告中写下，「我们也正在努力将多模态能力整合到我们的模型中」，大家都以为这还只是个优先级没那么高的目标……而现在看来，DeepSeek 做到的或许比外界想象的更多、更快。

📊 文章信息

AI 初评：86

来源：量子位

作者：鱼羊

分类：人工智能

语言：中文

阅读时间：7 分钟

字数：1510

标签： DeepSeek, 识图模式, 多模态, 视觉模型, 灰度测试

阅读完整文章

DeepSeek 识图模式是个新模型？！一手实测在此（没错我被灰度到了）

🤖 問 AI