← 回總覽

0%完成率!Claude、GPT、Gemini 全灭,SWE-Bench 作者新作把 AI 圈干沉默了

📅 2026-05-07 10:05 机器之心 人工智能 1 分鐘 709 字 評分: 86
ProgramBench AI 编程 软件工程 基准测试 大语言模型
📌 一句话摘要 Meta FAIR 联合斯坦福、哈佛发布 ProgramBench 新基准,测试 AI 从零重建完整软件系统的能力,结果 Claude、GPT、Gemini 等顶级模型全部 0% 完成率,暴露了当前 AI 缺乏全局工程规划能力的核心瓶颈。 📝 详细摘要 文章报道了 Meta FAIR 联合斯坦福、哈佛等机构发布的新基准 ProgramBench。与 SWE-Bench 等传统基准不同,ProgramBench 不再测试局部代码补全或 bug 修复,而是要求模型仅凭功能描述和 usage docs,从零重建 ffmpeg、SQLite、ripgrep 等真实软件系统,且禁止联

Title: Welcome to BestBlogs - BestBlogs.dev

URL Source: https://www.bestblogs.dev/article/213791ff?amp%3Butm_medium=feed&%3Butm_campaign=resources&%3Bentry=rss_article_item

Warning: This page contains shadow DOM that are currently hidden, consider enabling shadow DOM processing.

Markdown Content: Sign in or create an account to discover the right content for you

or continue with email

Email

New here? An account is created automatically. The code is valid for 10 minutes.

Verification Code

First-time login will automatically create an account. By continuing, you agree to our Terms of Service and Privacy Policy.

查看原文 → 發佈: 2026-05-07 10:05:00 收錄: 2026-05-07 18:00:38

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。