本文实测了 DeepSeek 灰度测试中的识图模式,发现其背后可能是一个独立于 V4 的新视觉模型,在 OCR 和 HTML 复原等任务上表现出色,但空间推理和找不同等任务仍存在幻觉和思考过长的问题。
📝 详细摘要
文章作者在获得 DeepSeek 识图模式灰度测试资格后,对该功能进行了全面实测。核心发现包括:识图模式背后可能是一个独立于 V4 Flash/Pro 的新视觉模型;非思考模式下响应极快,但空间推理题秒错;开启深度思考后虽能正确解答,但耗时长达 4 分钟且思考过程存在过度绕圈的问题。在实用功能方面,OCR 识别纯文本和表格表现优秀,能将网页截图复原为可交互的 HTML 代码,通过隐藏图片测试,但在色盲测试中偶见翻车。文章还通过对比知识边界,推测视觉模型是独立训练的。整体而言,DeepSeek 多模态能力来得比外界预期的更快,但仍有不少精进空间。
💡 主要观点
- DeepSeek 识图模式背后可能是一个独立于 V4 的新视觉模型。 通过对比知识边界发现,视觉模型了解某些特定人物,而 V4 Flash/Pro 则不了解,暗示视觉模型是独立训练的,而非 V4 的简单扩展。
💬 文章金句
- DeepSeek 识图模式背后,看上去是一个独立于 V4 flash/pro 的新模型。
- 非思考模式下,这个 DeepSeek 视觉模型的速度非常快,比闪电五连鞭还要快。
- 在思考的中段,其实 DeepSeek 已经找到了正确答案,但马上就是一个「等等」,然后……又绕了一大堆。
- 实测下来坦白说,DeepSeek Vision 还有不少可以精进之处。
- 当 DeepSeek 在 V4 的技术报告中写下,「我们也正在努力将多模态能力整合到我们的模型中」,大家都以为这还只是个优先级没那么高的目标……而现在看来,DeepSeek 做到的或许比外界想象的更多、更快。
📊 文章信息
AI 初评:86
来源:量子位
作者:鱼羊
分类:人工智能
语言:中文
阅读时间:7 分钟
字数:1510
标签: DeepSeek, 识图模式, 多模态, 视觉模型, 灰度测试