本文通过 LRU Cache 算法题和 Markdown CLI 工程任务,实测对比了 DeepSeek V4 Pro 与 GPT-5.3 Codex High 的代码生成与 Agent 能力,结论是 GPT-5.3 Codex High 整体略胜一筹,但差距不大。
📝 详细摘要
文章作者通过两轮测试,对 DeepSeek V4 Pro 和 GPT-5.3 Codex High 的代码能力进行了对比。第一轮是 TypeScript 实现 LRU Cache 的算法题,DeepSeek V4 Pro 以 8.2 分(首版)和 9.0 分(多轮后)略高于 GPT-5.3 Codex High 的 7.8 分和 8.6 分,其首版实现更标准,后续工程化迭代也更完整。第二轮是更贴近真实工程的 Agent 任务:实现一个本地 Markdown 文章分析 CLI 工具。在此轮中,GPT-5.3 Codex High 以 8.7 分胜出,其优势在于完整的工程闭环,包括需求假设声明、模块拆分、TypeScript 类型检查通过、错误路径处理以及自我审查。DeepSeek V4 Pro 虽代码组织和测试覆盖不错,但因 tsc 类型检查失败和错误处理语义不符要求,最终得分为 8.0 分。文章最终结论认为 GPT-5.3 Codex High 整体更强,但差距不大,并指出了测试的局限性。
💡 主要观点
- 在 LRU Cache 算法题中,DeepSeek V4 Pro 首版实现更标准,多轮迭代后工程化更完整。 DeepSeek V4 Pro 首版直接给出 Map 加双向链表的标准解法,边界处理正确。多轮追问后,能升级为泛型、增加 API、优化类型设计,最终得分 9.0,高于 GPT-5.3 Codex High 的 8.6 分。
💬 文章金句
- GPT-5.3 Codex High 赢在工程闭环。DeepSeek V4 Pro 赢在代码组织和测试覆盖,但输在 tsc 和错误语义。
- GPT-5.3 Codex High 是这轮最完整的代码 Agent。它不只是写功能,还完成了:假设声明、实现计划、模块拆分、测试、类型检查、运行验证、自我审查。
- DeepSeek V4 Pro 第一反应很标准。它没有走捷径,而是直接给出面试和算法题里最正统的答案。
- GPT-5.3 Codex High > DeepSeek V4 Pro,但差距不大。
📊 文章信息
AI 初评:83
来源:AI寒武纪
作者:AI寒武纪
分类:人工智能
语言:中文
阅读时间:17 分钟
字数:4094
标签: DeepSeek V4 Pro, GPT-5.3 Codex High, AI 代码生成, Agent 能力, 模型评测