Every 团队对 GPT-5.5 进行了为期三周的深度测试,发现其在编码、写作和桌面知识工作上表现强劲,但最佳使用方式是让 Opus 4.7 先写计划、GPT-5.5 再执行,而非单独上阵。
📝 详细摘要
本文编译自 Every 团队对 GPT-5.5 的内部测试报告。测试覆盖编码、写作、知识工作和产品任务,核心结论是 GPT-5.5 在高级工程师基准上达到 62.5 分,远超 Opus 4.7 的 30 分,但仍低于人类高级工程师的 80-90 分。文章提出了一个关键工程协作模式:让 Opus 4.7 负责制定精确的改造计划,GPT-5.5 负责长时间执行。在编码方面,GPT-5.5 展现出重构胆量,愿意删除旧文件从头开始;在写作方面,它擅长商务写作和风格模仿,但人格感不如 Opus;在桌面知识工作方面,搭配 Codex Desktop 使用时体验极佳。文章强调,工程团队的 AI 工作流正在从「选一个模型」变成「编排一组模型」。
💡 主要观点
- GPT-5.5 在高级工程师基准上达到 62.5 分,远超 Opus 4.7 的 30 分。 Every 团队用真实应用代码库进行测试,要求模型从第一性原理重写。GPT-5.5 首次接近了「能重写系统」的位置,但仍有约 30 分差距。
💬 文章金句
- 在高级工程师基准上,GPT-5.5 得了 62.5 分。
- 用 Opus 4.7 写计划,GPT-5.5 就会变成一头猛兽。
- 它有那种果断、胆量和自主性,真的会删掉一堆文件,然后从头开始。
- Opus 的计划会告诉模型:如果重写足够好,这个大文件只会剩 100 行。
- 工程团队的 AI 工作流,正在从「选一个模型」变成「编排一组模型」。
📊 文章信息
AI 初评:85
来源:晚点再听LaterCast
作者:晚点再听LaterCast
分类:人工智能
语言:中文
阅读时间:18 分钟
字数:4299
标签: GPT-5.5, Opus 4.7, 模型评测, AI 编程, 工程协作