← 回總覽

Every CEO:我们对 GPT-5.5 进行了为期 3 周的测试,它简直太强大丨 Every

📅 2026-05-05 20:45 晚点再听LaterCast 人工智能 2 分鐘 1584 字 評分: 85
GPT-5.5 Opus 4.7 模型评测 AI 编程 工程协作
📌 一句话摘要 Every 团队对 GPT-5.5 进行了为期三周的深度测试,发现其在编码、写作和桌面知识工作上表现强劲,但最佳使用方式是让 Opus 4.7 先写计划、GPT-5.5 再执行,而非单独上阵。 📝 详细摘要 本文编译自 Every 团队对 GPT-5.5 的内部测试报告。测试覆盖编码、写作、知识工作和产品任务,核心结论是 GPT-5.5 在高级工程师基准上达到 62.5 分,远超 Opus 4.7 的 30 分,但仍低于人类高级工程师的 80-90 分。文章提出了一个关键工程协作模式:让 Opus 4.7 负责制定精确的改造计划,GPT-5.5 负责长时间执行。在编码方面,

📌 一句话摘要

Every 团队对 GPT-5.5 进行了为期三周的深度测试,发现其在编码、写作和桌面知识工作上表现强劲,但最佳使用方式是让 Opus 4.7 先写计划、GPT-5.5 再执行,而非单独上阵。

📝 详细摘要

本文编译自 Every 团队对 GPT-5.5 的内部测试报告。测试覆盖编码、写作、知识工作和产品任务,核心结论是 GPT-5.5 在高级工程师基准上达到 62.5 分,远超 Opus 4.7 的 30 分,但仍低于人类高级工程师的 80-90 分。文章提出了一个关键工程协作模式:让 Opus 4.7 负责制定精确的改造计划,GPT-5.5 负责长时间执行。在编码方面,GPT-5.5 展现出重构胆量,愿意删除旧文件从头开始;在写作方面,它擅长商务写作和风格模仿,但人格感不如 Opus;在桌面知识工作方面,搭配 Codex Desktop 使用时体验极佳。文章强调,工程团队的 AI 工作流正在从「选一个模型」变成「编排一组模型」。

💡 主要观点

- GPT-5.5 在高级工程师基准上达到 62.5 分,远超 Opus 4.7 的 30 分。 Every 团队用真实应用代码库进行测试,要求模型从第一性原理重写。GPT-5.5 首次接近了「能重写系统」的位置,但仍有约 30 分差距。

最佳使用方式是让 Opus 4.7 写计划,GPT-5.5 执行。 Opus 4.7 的计划像工程合同,包含文件数量和删除范围等精确细节;GPT-5.5 拿到具体计划后能持续数小时推进任务,而非局部修补。
GPT-5.5 在重构胆量上表现突出,愿意删除旧文件从头开始。 SE Bench 测试发现,GPT-5.5 不会被现有代码库牵着走,能从核心不变量出发重建结构,这是高级工程师的关键能力。
设计导向任务和模糊需求场景下,Opus 4.7 仍更可靠。 在需要审美判断、产品 taste、从模糊目标中找路的任务中,Opus 4.7 表现更稳;GPT-5.5 在 Ruby 代码质量上也不如 Opus。
GPT-5.5 在商务写作和桌面知识工作上已成为日常主力。 它擅长风格模仿且不过度表演,适合投资人更新和团队备忘录;搭配 Codex Desktop 使用时速度快、稳定性高,但细节洞察不如 Opus。

💬 文章金句

- 在高级工程师基准上,GPT-5.5 得了 62.5 分。

  • 用 Opus 4.7 写计划,GPT-5.5 就会变成一头猛兽。
  • 它有那种果断、胆量和自主性,真的会删掉一堆文件,然后从头开始。
  • Opus 的计划会告诉模型:如果重写足够好,这个大文件只会剩 100 行。
  • 工程团队的 AI 工作流,正在从「选一个模型」变成「编排一组模型」。

📊 文章信息

AI 初评:85

来源:晚点再听LaterCast

作者:晚点再听LaterCast

分类:人工智能

语言:中文

阅读时间:18 分钟

字数:4299

标签: GPT-5.5, Opus 4.7, 模型评测, AI 编程, 工程协作

阅读完整文章

查看原文 → 發佈: 2026-05-05 20:45:00 收錄: 2026-05-06 04:00:53

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。