← 回總覽

DeepSeek 识图模式是个新模型?!一手实测在此(没错我被灰度到了)

📅 2026-04-30 14:52 鱼羊 人工智能 2 分鐘 1458 字 評分: 86
DeepSeek 识图模式 多模态 视觉模型 灰度测试
📌 一句话摘要 本文实测了 DeepSeek 灰度测试中的识图模式,发现其背后可能是一个独立于 V4 的新视觉模型,在 OCR 和 HTML 复原等任务上表现出色,但空间推理和找不同等任务仍存在幻觉和思考过长的问题。 📝 详细摘要 文章作者在获得 DeepSeek 识图模式灰度测试资格后,对该功能进行了全面实测。核心发现包括:识图模式背后可能是一个独立于 V4 Flash/Pro 的新视觉模型;非思考模式下响应极快,但空间推理题秒错;开启深度思考后虽能正确解答,但耗时长达 4 分钟且思考过程存在过度绕圈的问题。在实用功能方面,OCR 识别纯文本和表格表现优秀,能将网页截图复原为可交互的 H

📌 一句话摘要

本文实测了 DeepSeek 灰度测试中的识图模式,发现其背后可能是一个独立于 V4 的新视觉模型,在 OCR 和 HTML 复原等任务上表现出色,但空间推理和找不同等任务仍存在幻觉和思考过长的问题。

📝 详细摘要

文章作者在获得 DeepSeek 识图模式灰度测试资格后,对该功能进行了全面实测。核心发现包括:识图模式背后可能是一个独立于 V4 Flash/Pro 的新视觉模型;非思考模式下响应极快,但空间推理题秒错;开启深度思考后虽能正确解答,但耗时长达 4 分钟且思考过程存在过度绕圈的问题。在实用功能方面,OCR 识别纯文本和表格表现优秀,能将网页截图复原为可交互的 HTML 代码,通过隐藏图片测试,但在色盲测试中偶见翻车。文章还通过对比知识边界,推测视觉模型是独立训练的。整体而言,DeepSeek 多模态能力来得比外界预期的更快,但仍有不少精进空间。

💡 主要观点

- DeepSeek 识图模式背后可能是一个独立于 V4 的新视觉模型。 通过对比知识边界发现,视觉模型了解某些特定人物,而 V4 Flash/Pro 则不了解,暗示视觉模型是独立训练的,而非 V4 的简单扩展。

非思考模式响应极快,但复杂推理任务容易出错。 在空间推理题中,非思考模式秒答但秒错;开启深度思考后虽能正确解答,但耗时长达 4 分钟,且思考过程存在过度绕圈的问题。
实用功能表现出色,OCR 和 HTML 复原是亮点。 OCR 识别纯文本和表格准确率高,格式整齐;能将网页截图复原为可交互的 HTML 代码,按钮和链接均可正常使用。
多模态能力来得比预期更快,但仍有精进空间。 DeepSeek 在 V4 技术报告中提及的多模态整合目标,实际进展超出外界预期;但找不同等任务中幻觉较多,色盲测试偶见翻车。

💬 文章金句

- DeepSeek 识图模式背后,看上去是一个独立于 V4 flash/pro 的新模型。

  • 非思考模式下,这个 DeepSeek 视觉模型的速度非常快,比闪电五连鞭还要快。
  • 在思考的中段,其实 DeepSeek 已经找到了正确答案,但马上就是一个「等等」,然后……又绕了一大堆。
  • 实测下来坦白说,DeepSeek Vision 还有不少可以精进之处。
  • 当 DeepSeek 在 V4 的技术报告中写下,「我们也正在努力将多模态能力整合到我们的模型中」,大家都以为这还只是个优先级没那么高的目标……而现在看来,DeepSeek 做到的或许比外界想象的更多、更快。

📊 文章信息

AI 初评:86

来源:量子位

作者:鱼羊

分类:人工智能

语言:中文

阅读时间:7 分钟

字数:1510

标签: DeepSeek, 识图模式, 多模态, 视觉模型, 灰度测试

阅读完整文章

查看原文 → 發佈: 2026-04-30 14:52:23 收錄: 2026-04-30 16:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。