← 回總覽

Opus 4.8 连夜算尽 1170 亿人命运,一句话敲出人类投胎模拟器!

📅 2026-05-30 15:00 新智元 人工智能 2 分鐘 1394 字 評分: 84
Claude Opus 4.8 AI 编程 AI Agent 基准测试 Anthropic
📌 一句话摘要 本文报道了沃顿商学院教授 Ethan Mollick 利用 Claude Opus 4.8 独立开发「The Veil of History」网站,该网站基于人口统计学数据模拟人类投胎概率,同时介绍了 Opus 4.8 在多项基准测试中超越 GPT-5.5 登顶的消息。 📝 详细摘要 文章围绕两个核心事件展开:一是 Ethan Mollick 教授使用 Claude Opus 4.8 独立开发了一个名为「The Veil of History」的交互式网站,该网站基于人口统计学数据,模拟了在人类历史上随机投胎的概率分布,展示了绝大多数人类生活在贫困和农业时代的残酷现实;二是

📌 一句话摘要

本文报道了沃顿商学院教授 Ethan Mollick 利用 Claude Opus 4.8 独立开发「The Veil of History」网站,该网站基于人口统计学数据模拟人类投胎概率,同时介绍了 Opus 4.8 在多项基准测试中超越 GPT-5.5 登顶的消息。

📝 详细摘要

文章围绕两个核心事件展开:一是 Ethan Mollick 教授使用 Claude Opus 4.8 独立开发了一个名为「The Veil of History」的交互式网站,该网站基于人口统计学数据,模拟了在人类历史上随机投胎的概率分布,展示了绝大多数人类生活在贫困和农业时代的残酷现实;二是 Opus 4.8 在 Artificial Analysis 等多项基准测试中超越 GPT-5.5 重新登顶,并在 SWE-Bench Pro、GDPval-AA 等编程和真实工作场景基准上表现突出。文章通过这个案例展示了 AI 模型从单纯的语言能力向独立完成复杂产品级交付的 Agent 能力演进,并讨论了 Anthropic 的融资动态和模型对齐进展。

💡 主要观点

- Claude Opus 4.8 独立完成了一个复杂的数据可视化网站开发。 从数据研究、数学建模、前端开发到文案撰写,Opus 4.8 在没有人类程序员参与的情况下,独立交付了「The Veil of History」网站,展示了 AI 作为 Agent 的完整产品交付能力。

Opus 4.8 在多项基准测试中超越 GPT-5.5 重新登顶。 在 Artificial Analysis、Humanity's Last Exam、SWE-Bench Pro 和 GDPval-AA 等基准上,Opus 4.8 均取得领先,特别是在编程和真实工作场景基准上优势明显。
AI 模型的竞争焦点正从语言能力转向 Agent 能力。 文章指出,模型一旦被当成能独立干活的 Agent,评判标准就从单纯的聪明程度扩展到自主性、边界认知和任务完成效率。

💬 文章金句

- 你此刻随手就有的这些,是 1170 亿人里的绝大多数,做梦都够不着的配置。

  • 代码写得好不稀奇。懂得怎么调动人类情绪,这几乎是碳基生命最后的自留地。
  • 聪明和诚实从来不是二选一,Opus 4.8 这次的狠处,是两样一块儿往上顶。

📊 文章信息

AI 初评:84

来源:新智元

作者:新智元

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3076

标签: Claude Opus 4.8, AI 编程, AI Agent, 基准测试, Anthropic

阅读完整文章

查看原文 → 發佈: 2026-05-30 15:00:00 收錄: 2026-05-30 18:00:00

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。