Cognition 与 Mercor 联合推出了 APEX-SWE,这是一个旨在评估 AI 模型在真实且复杂的软件工程任务中表现的新基准测试。
📝 详细摘要
Cognition 与 Mercor 合作发布了 APEX-SWE,旨在解决传统代码评估方式的局限性。与标准基准测试不同,APEX-SWE 专注于真实的软件工程工作流,涵盖了系统构建和调试等环节。初步结果显示,OpenAI 的 GPT 5.3 Codex (High) 以 41.5% 的 Pass@1 率领跑排行榜。
📊 文章信息
AI 评分:81
来源:Cognition(@cognition_labs)
作者:Cognition
分类:人工智能
语言:英文
阅读时间:1 分钟
字数:129
标签: APEX-SWE, AI 基准测试, 软件工程, Cognition, Mercor