DeepSeek V4 Pro 与 GPT-5.3 Codex high 同台 PK，代码能力差距有多大？「一手测试」

📌 一句话摘要

本文通过 LRU Cache 算法题和 Markdown CLI 工程任务，实测对比了 DeepSeek V4 Pro 与 GPT-5.3 Codex High 的代码生成与 Agent 能力，结论是 GPT-5.3 Codex High 整体略胜一筹，但差距不大。

📝 详细摘要

文章作者通过两轮测试，对 DeepSeek V4 Pro 和 GPT-5.3 Codex High 的代码能力进行了对比。第一轮是 TypeScript 实现 LRU Cache 的算法题，DeepSeek V4 Pro 以 8.2 分（首版）和 9.0 分（多轮后）略高于 GPT-5.3 Codex High 的 7.8 分和 8.6 分，其首版实现更标准，后续工程化迭代也更完整。第二轮是更贴近真实工程的 Agent 任务：实现一个本地 Markdown 文章分析 CLI 工具。在此轮中，GPT-5.3 Codex High 以 8.7 分胜出，其优势在于完整的工程闭环，包括需求假设声明、模块拆分、TypeScript 类型检查通过、错误路径处理以及自我审查。DeepSeek V4 Pro 虽代码组织和测试覆盖不错，但因 tsc 类型检查失败和错误处理语义不符要求，最终得分为 8.0 分。文章最终结论认为 GPT-5.3 Codex High 整体更强，但差距不大，并指出了测试的局限性。

💡 主要观点

- 在 LRU Cache 算法题中，DeepSeek V4 Pro 首版实现更标准，多轮迭代后工程化更完整。 DeepSeek V4 Pro 首版直接给出 Map 加双向链表的标准解法，边界处理正确。多轮追问后，能升级为泛型、增加 API、优化类型设计，最终得分 9.0，高于 GPT-5.3 Codex High 的 8.6 分。

在 Markdown CLI 工程任务中，GPT-5.3 Codex High 的工程闭环能力更强。 GPT-5.3 Codex High 不仅完成了功能，还进行了需求假设声明、模块拆分、TypeScript 类型检查通过、错误路径处理（如不存在目录输出 JSON warning）和自我审查，最终得分 8.7，高于 DeepSeek V4 Pro 的 8.0 分。

DeepSeek V4 Pro 在工程收尾和验收上存在明显短板。 DeepSeek V4 Pro 的 tsc --noEmit 因缺少 @types/node 而失败，且对不存在目录的处理是直接报错退出而非输出 JSON warning，这些细节导致其在工程交付任务中落后。

测试结果不能直接泛化到所有 Agent 场景。 文章明确指出，测试主要考察小型工程代码生成能力，未充分测试工具调用、长链路任务、大规模代码库修改等更复杂的 Agent 能力，结论具有局限性。

💬 文章金句

- GPT-5.3 Codex High 赢在工程闭环。DeepSeek V4 Pro 赢在代码组织和测试覆盖，但输在 tsc 和错误语义。

GPT-5.3 Codex High 是这轮最完整的代码 Agent。它不只是写功能，还完成了：假设声明、实现计划、模块拆分、测试、类型检查、运行验证、自我审查。
DeepSeek V4 Pro 第一反应很标准。它没有走捷径，而是直接给出面试和算法题里最正统的答案。
GPT-5.3 Codex High > DeepSeek V4 Pro，但差距不大。

📊 文章信息

AI 初评：83

来源：AI寒武纪

作者：AI寒武纪

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4094

标签： DeepSeek V4 Pro, GPT-5.3 Codex High, AI 代码生成, Agent 能力, 模型评测

阅读完整文章

DeepSeek V4 Pro 与 GPT-5.3 Codex high 同台 PK，代码能力差距有多大？「一手测试」

🤖 問 AI