← 回總覽

Cognition 与 Mercor 联合发布 APEX-SWE 基准测试

📅 2026-03-25 01:52 Cognition 人工智能 1 分鐘 524 字 評分: 81
APEX-SWE AI 基准测试 软件工程 Cognition Mercor
📌 一句话摘要 Cognition 与 Mercor 联合推出了 APEX-SWE,这是一个旨在评估 AI 模型在真实且复杂的软件工程任务中表现的新基准测试。 📝 详细摘要 Cognition 与 Mercor 合作发布了 APEX-SWE,旨在解决传统代码评估方式的局限性。与标准基准测试不同,APEX-SWE 专注于真实的软件工程工作流,涵盖了系统构建和调试等环节。初步结果显示,OpenAI 的 GPT 5.3 Codex (High) 以 41.5% 的 Pass@1 率领跑排行榜。 📊 文章信息 AI 评分:81 来源:Cognition(@cognition_labs) 作者:C

📌 一句话摘要

Cognition 与 Mercor 联合推出了 APEX-SWE,这是一个旨在评估 AI 模型在真实且复杂的软件工程任务中表现的新基准测试。

📝 详细摘要

Cognition 与 Mercor 合作发布了 APEX-SWE,旨在解决传统代码评估方式的局限性。与标准基准测试不同,APEX-SWE 专注于真实的软件工程工作流,涵盖了系统构建和调试等环节。初步结果显示,OpenAI 的 GPT 5.3 Codex (High) 以 41.5% 的 Pass@1 率领跑排行榜。

📊 文章信息

AI 评分:81

来源:Cognition(@cognition_labs)

作者:Cognition

分类:人工智能

语言:英文

阅读时间:1 分钟

字数:129

标签: APEX-SWE, AI 基准测试, 软件工程, Cognition, Mercor

阅读推文

查看原文 → 發佈: 2026-03-25 01:52:57 收錄: 2026-03-25 04:00:16

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。