Every CEO：我们对 GPT-5.5 进行了为期 3 周的测试，它简直太强大丨 Every

📌 一句话摘要

Every 团队对 GPT-5.5 进行了为期三周的深度测试，发现其在编码、写作和桌面知识工作上表现强劲，但最佳使用方式是让 Opus 4.7 先写计划、GPT-5.5 再执行，而非单独上阵。

📝 详细摘要

本文编译自 Every 团队对 GPT-5.5 的内部测试报告。测试覆盖编码、写作、知识工作和产品任务，核心结论是 GPT-5.5 在高级工程师基准上达到 62.5 分，远超 Opus 4.7 的 30 分，但仍低于人类高级工程师的 80-90 分。文章提出了一个关键工程协作模式：让 Opus 4.7 负责制定精确的改造计划，GPT-5.5 负责长时间执行。在编码方面，GPT-5.5 展现出重构胆量，愿意删除旧文件从头开始；在写作方面，它擅长商务写作和风格模仿，但人格感不如 Opus；在桌面知识工作方面，搭配 Codex Desktop 使用时体验极佳。文章强调，工程团队的 AI 工作流正在从「选一个模型」变成「编排一组模型」。

💡 主要观点

- GPT-5.5 在高级工程师基准上达到 62.5 分，远超 Opus 4.7 的 30 分。 Every 团队用真实应用代码库进行测试，要求模型从第一性原理重写。GPT-5.5 首次接近了「能重写系统」的位置，但仍有约 30 分差距。

最佳使用方式是让 Opus 4.7 写计划，GPT-5.5 执行。 Opus 4.7 的计划像工程合同，包含文件数量和删除范围等精确细节；GPT-5.5 拿到具体计划后能持续数小时推进任务，而非局部修补。

GPT-5.5 在重构胆量上表现突出，愿意删除旧文件从头开始。 SE Bench 测试发现，GPT-5.5 不会被现有代码库牵着走，能从核心不变量出发重建结构，这是高级工程师的关键能力。

设计导向任务和模糊需求场景下，Opus 4.7 仍更可靠。 在需要审美判断、产品 taste、从模糊目标中找路的任务中，Opus 4.7 表现更稳；GPT-5.5 在 Ruby 代码质量上也不如 Opus。

GPT-5.5 在商务写作和桌面知识工作上已成为日常主力。 它擅长风格模仿且不过度表演，适合投资人更新和团队备忘录；搭配 Codex Desktop 使用时速度快、稳定性高，但细节洞察不如 Opus。

💬 文章金句

- 在高级工程师基准上，GPT-5.5 得了 62.5 分。

用 Opus 4.7 写计划，GPT-5.5 就会变成一头猛兽。
它有那种果断、胆量和自主性，真的会删掉一堆文件，然后从头开始。
Opus 的计划会告诉模型：如果重写足够好，这个大文件只会剩 100 行。
工程团队的 AI 工作流，正在从「选一个模型」变成「编排一组模型」。

📊 文章信息

AI 初评：85

来源：晚点再听LaterCast

作者：晚点再听LaterCast

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4299

标签： GPT-5.5, Opus 4.7, 模型评测, AI 编程, 工程协作

阅读完整文章

Every CEO：我们对 GPT-5.5 进行了为期 3 周的测试，它简直太强大丨 Every

🤖 問 AI