本文对 DeepSeek 新上线的识图功能进行了全面的实测,涵盖画面描述、物品识别、逻辑推理等场景,展示了其基础理解能力扎实但知识库更新不足、复杂逻辑题表现欠佳的现状。
📝 详细摘要
文章作者作为灰度测试用户,对 DeepSeek 新推出的识图模式进行了 12 项详细测试。测试分为三大类:画面描述与物品识别、元素识别与逻辑推理。结果显示,DeepSeek 在基础画面描述和物品识别上表现良好,能准确描述图像细节、识别角色和场景,甚至在开启思考模式后能推断出文物的历史风格。但在识别较新的游戏或产品时,知识库更新不足导致判断错误。在元素识别和逻辑推理方面,DeepSeek 表现不佳,无法准确数出图片中的老虎数量,也无法识别隐藏数字,三道行测图形逻辑题仅答对一道。作者认为,当前识图功能更像是一个过渡期的视觉理解模块,而非原生多模态能力,但证明了 DeepSeek 团队在视觉理解上已跑通,为后续的原生多模态模型铺路。
💡 主要观点
- DeepSeek 识图在基础画面描述和物品识别上表现扎实。 能准确描述图像细节、识别角色和场景,开启思考模式后能进行深度推理,如推断出文物为清代痕都斯坦风格,与展览主题吻合。
💬 文章金句
- 当所有人还在为 V4 的价格和编码能力而惊叹时,DeepSeek 突然开测识图模式,全网热议了一整年的多模态能力总算是落地了。
- 这个识图模式,更接近一个挂载在 DeepSeek-V4 主干上的视觉理解模块,而并非 DeepSeek-V4 本身的多模态能力。
- 但至少,它证明 DeepSeek 团队在视觉理解上已经跑通了,这明显是在为接下来的原生多模态大招铺路。
📊 文章信息
AI 初评:82
来源:创业邦
作者:创业邦
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2824
标签: DeepSeek, 识图, 多模态, AI 产品评测, 视觉理解