Opus 4.8 连夜算尽 1170 亿人命运，一句话敲出人类投胎模拟器！

📌 一句话摘要

本文报道了沃顿商学院教授 Ethan Mollick 利用 Claude Opus 4.8 独立开发「The Veil of History」网站，该网站基于人口统计学数据模拟人类投胎概率，同时介绍了 Opus 4.8 在多项基准测试中超越 GPT-5.5 登顶的消息。

📝 详细摘要

文章围绕两个核心事件展开：一是 Ethan Mollick 教授使用 Claude Opus 4.8 独立开发了一个名为「The Veil of History」的交互式网站，该网站基于人口统计学数据，模拟了在人类历史上随机投胎的概率分布，展示了绝大多数人类生活在贫困和农业时代的残酷现实；二是 Opus 4.8 在 Artificial Analysis 等多项基准测试中超越 GPT-5.5 重新登顶，并在 SWE-Bench Pro、GDPval-AA 等编程和真实工作场景基准上表现突出。文章通过这个案例展示了 AI 模型从单纯的语言能力向独立完成复杂产品级交付的 Agent 能力演进，并讨论了 Anthropic 的融资动态和模型对齐进展。

💡 主要观点

- Claude Opus 4.8 独立完成了一个复杂的数据可视化网站开发。 从数据研究、数学建模、前端开发到文案撰写，Opus 4.8 在没有人类程序员参与的情况下，独立交付了「The Veil of History」网站，展示了 AI 作为 Agent 的完整产品交付能力。

Opus 4.8 在多项基准测试中超越 GPT-5.5 重新登顶。 在 Artificial Analysis、Humanity's Last Exam、SWE-Bench Pro 和 GDPval-AA 等基准上，Opus 4.8 均取得领先，特别是在编程和真实工作场景基准上优势明显。

AI 模型的竞争焦点正从语言能力转向 Agent 能力。 文章指出，模型一旦被当成能独立干活的 Agent，评判标准就从单纯的聪明程度扩展到自主性、边界认知和任务完成效率。

💬 文章金句

- 你此刻随手就有的这些，是 1170 亿人里的绝大多数，做梦都够不着的配置。

代码写得好不稀奇。懂得怎么调动人类情绪，这几乎是碳基生命最后的自留地。
聪明和诚实从来不是二选一，Opus 4.8 这次的狠处，是两样一块儿往上顶。

📊 文章信息

AI 初评：84

来源：新智元

作者：新智元

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3076

标签： Claude Opus 4.8, AI 编程, AI Agent, 基准测试, Anthropic

阅读完整文章

Opus 4.8 连夜算尽 1170 亿人命运，一句话敲出人类投胎模拟器！

🤖 問 AI