← 回總覽

DeepSeek V4 Pro 与 GPT-5.3 Codex high 同台 PK,代码能力差距有多大?「一手测试」

📅 2026-04-26 11:24 AI寒武纪 人工智能 2 分鐘 1804 字 評分: 83
DeepSeek V4 Pro GPT-5.3 Codex High AI 代码生成 Agent 能力 模型评测
📌 一句话摘要 本文通过 LRU Cache 算法题和 Markdown CLI 工程任务,实测对比了 DeepSeek V4 Pro 与 GPT-5.3 Codex High 的代码生成与 Agent 能力,结论是 GPT-5.3 Codex High 整体略胜一筹,但差距不大。 📝 详细摘要 文章作者通过两轮测试,对 DeepSeek V4 Pro 和 GPT-5.3 Codex High 的代码能力进行了对比。第一轮是 TypeScript 实现 LRU Cache 的算法题,DeepSeek V4 Pro 以 8.2 分(首版)和 9.0 分(多轮后)略高于 GPT-5.3 Cod

📌 一句话摘要

本文通过 LRU Cache 算法题和 Markdown CLI 工程任务,实测对比了 DeepSeek V4 Pro 与 GPT-5.3 Codex High 的代码生成与 Agent 能力,结论是 GPT-5.3 Codex High 整体略胜一筹,但差距不大。

📝 详细摘要

文章作者通过两轮测试,对 DeepSeek V4 Pro 和 GPT-5.3 Codex High 的代码能力进行了对比。第一轮是 TypeScript 实现 LRU Cache 的算法题,DeepSeek V4 Pro 以 8.2 分(首版)和 9.0 分(多轮后)略高于 GPT-5.3 Codex High 的 7.8 分和 8.6 分,其首版实现更标准,后续工程化迭代也更完整。第二轮是更贴近真实工程的 Agent 任务:实现一个本地 Markdown 文章分析 CLI 工具。在此轮中,GPT-5.3 Codex High 以 8.7 分胜出,其优势在于完整的工程闭环,包括需求假设声明、模块拆分、TypeScript 类型检查通过、错误路径处理以及自我审查。DeepSeek V4 Pro 虽代码组织和测试覆盖不错,但因 tsc 类型检查失败和错误处理语义不符要求,最终得分为 8.0 分。文章最终结论认为 GPT-5.3 Codex High 整体更强,但差距不大,并指出了测试的局限性。

💡 主要观点

- 在 LRU Cache 算法题中,DeepSeek V4 Pro 首版实现更标准,多轮迭代后工程化更完整。 DeepSeek V4 Pro 首版直接给出 Map 加双向链表的标准解法,边界处理正确。多轮追问后,能升级为泛型、增加 API、优化类型设计,最终得分 9.0,高于 GPT-5.3 Codex High 的 8.6 分。

在 Markdown CLI 工程任务中,GPT-5.3 Codex High 的工程闭环能力更强。 GPT-5.3 Codex High 不仅完成了功能,还进行了需求假设声明、模块拆分、TypeScript 类型检查通过、错误路径处理(如不存在目录输出 JSON warning)和自我审查,最终得分 8.7,高于 DeepSeek V4 Pro 的 8.0 分。
DeepSeek V4 Pro 在工程收尾和验收上存在明显短板。 DeepSeek V4 Pro 的 tsc --noEmit 因缺少 @types/node 而失败,且对不存在目录的处理是直接报错退出而非输出 JSON warning,这些细节导致其在工程交付任务中落后。
测试结果不能直接泛化到所有 Agent 场景。 文章明确指出,测试主要考察小型工程代码生成能力,未充分测试工具调用、长链路任务、大规模代码库修改等更复杂的 Agent 能力,结论具有局限性。

💬 文章金句

- GPT-5.3 Codex High 赢在工程闭环。DeepSeek V4 Pro 赢在代码组织和测试覆盖,但输在 tsc 和错误语义。

  • GPT-5.3 Codex High 是这轮最完整的代码 Agent。它不只是写功能,还完成了:假设声明、实现计划、模块拆分、测试、类型检查、运行验证、自我审查。
  • DeepSeek V4 Pro 第一反应很标准。它没有走捷径,而是直接给出面试和算法题里最正统的答案。
  • GPT-5.3 Codex High > DeepSeek V4 Pro,但差距不大。

📊 文章信息

AI 初评:83

来源:AI寒武纪

作者:AI寒武纪

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4094

标签: DeepSeek V4 Pro, GPT-5.3 Codex High, AI 代码生成, Agent 能力, 模型评测

阅读完整文章

查看原文 → 發佈: 2026-04-26 11:24:00 收錄: 2026-04-26 20:00:35

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。