Cognition 与 Mercor 联合发布 APEX-SWE 基准测试

📅 2026-03-25 01:52 Cognition 人工智能 1 分鐘 524 字評分: 81

📌 一句话摘要 Cognition 与 Mercor 联合推出了 APEX-SWE，这是一个旨在评估 AI 模型在真实且复杂的软件工程任务中表现的新基准测试。 📝 详细摘要 Cognition 与 Mercor 合作发布了 APEX-SWE，旨在解决传统代码评估方式的局限性。与标准基准测试不同，APEX-SWE 专注于真实的软件工程工作流，涵盖了系统构建和调试等环节。初步结果显示，OpenAI 的 GPT 5.3 Codex (High) 以 41.5% 的 Pass@1 率领跑排行榜。 📊 文章信息 AI 评分：81 来源：Cognition(@cognition_labs) 作者：C

📌 一句话摘要

Cognition 与 Mercor 联合推出了 APEX-SWE，这是一个旨在评估 AI 模型在真实且复杂的软件工程任务中表现的新基准测试。

📝 详细摘要

Cognition 与 Mercor 合作发布了 APEX-SWE，旨在解决传统代码评估方式的局限性。与标准基准测试不同，APEX-SWE 专注于真实的软件工程工作流，涵盖了系统构建和调试等环节。初步结果显示，OpenAI 的 GPT 5.3 Codex (High) 以 41.5% 的 Pass@1 率领跑排行榜。

📊 文章信息

AI 评分：81

来源：Cognition(@cognition_labs)

作者：Cognition

分类：人工智能

语言：英文

阅读时间：1 分钟

字数：129

标签： APEX-SWE, AI 基准测试, 软件工程, Cognition, Mercor

阅读推文

查看原文 → 發佈: 2026-03-25 01:52:57 收錄: 2026-03-25 04:00:16

Cognition 与 Mercor 联合发布 APEX-SWE 基准测试

🤖 問 AI