本文报道了沃顿商学院教授 Ethan Mollick 利用 Claude Opus 4.8 独立开发「The Veil of History」网站,该网站基于人口统计学数据模拟人类投胎概率,同时介绍了 Opus 4.8 在多项基准测试中超越 GPT-5.5 登顶的消息。
📝 详细摘要
文章围绕两个核心事件展开:一是 Ethan Mollick 教授使用 Claude Opus 4.8 独立开发了一个名为「The Veil of History」的交互式网站,该网站基于人口统计学数据,模拟了在人类历史上随机投胎的概率分布,展示了绝大多数人类生活在贫困和农业时代的残酷现实;二是 Opus 4.8 在 Artificial Analysis 等多项基准测试中超越 GPT-5.5 重新登顶,并在 SWE-Bench Pro、GDPval-AA 等编程和真实工作场景基准上表现突出。文章通过这个案例展示了 AI 模型从单纯的语言能力向独立完成复杂产品级交付的 Agent 能力演进,并讨论了 Anthropic 的融资动态和模型对齐进展。
💡 主要观点
- Claude Opus 4.8 独立完成了一个复杂的数据可视化网站开发。 从数据研究、数学建模、前端开发到文案撰写,Opus 4.8 在没有人类程序员参与的情况下,独立交付了「The Veil of History」网站,展示了 AI 作为 Agent 的完整产品交付能力。
💬 文章金句
- 你此刻随手就有的这些,是 1170 亿人里的绝大多数,做梦都够不着的配置。
- 代码写得好不稀奇。懂得怎么调动人类情绪,这几乎是碳基生命最后的自留地。
- 聪明和诚实从来不是二选一,Opus 4.8 这次的狠处,是两样一块儿往上顶。
📊 文章信息
AI 初评:84
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3076
标签: Claude Opus 4.8, AI 编程, AI Agent, 基准测试, Anthropic