本文报道了 Claude Mythos 模型在 METR 评测中突破 16 小时自主任务能力,导致现有评测框架失效,并探讨了 AI 超指数增长对安全领域和 AGI 奇点预测的深远影响。
📝 详细摘要
文章围绕 Claude Mythos 模型发布引发的行业震动展开。核心事件是国际权威 AI 评测机构 METR 发现,Mythos 在长周期复杂任务上的能力(50% 成功率对应 16 小时人类工作量)已超出其评测框架的测量范围,导致数据进入「失真区」。文章将此解读为 AI 能力进入「超指数增长」阶段的标志,并引用 Palo Alto Networks 的测试报告,指出 Mythos 在网络安全领域展现出惊人的自主攻击能力:3 周完成顶级渗透团队 1 年工作量,能将多个低危漏洞串联成攻击链,将攻击时间压缩至 25 分钟。文章还提到 Mozilla 利用 Mythos 在 4 月修复了 423 个安全问题,以及英伟达向客户注资约 400 亿美元等资本动态,最终得出 2027 年 AGI 奇点正在加速到来的结论。
💡 主要观点
- Claude Mythos 在 METR 评测中突破 16 小时自主任务能力,导致现有评测框架失效。 METR 的 228 个测试任务中仅 5 个属于 16 小时级别,Mythos 在此区间达到 50% 成功率,超出评测体系测量范围,被形容为「爆表」和「失真」。
💬 文章金句
- Claude Mythos Preview 的能力,已经捅破了人类评测框架的天花板,进入了「失真区」!
- 人类现有的、引以为傲的难题库,已经被 AI 彻底掏空了。
- AI 在超指数增长,AI 增速本身在加速。
- 使用 Mythos 辅助进行漏洞分析,仅仅 3 周时间,其完成的工作深度和覆盖广度,等同于一整个顶级渗透测试团队整整 1 年的工作量。
- AGI 的奇点不再是预测,而是正在发生的冲击。
📊 文章信息
AI 初评:82
来源:新智元
作者:新智元
分类:人工智能
语言:中文
阅读时间:13 分钟
字数:3153
标签: Claude Mythos, METR, AI 评测, AGI, 超指数增长