全部 未讀 (11742) ★ 收藏 (0) 🤖 人工智能 (7549) 📊 商业科技 (1777) 💻 软件编程 (1189) 📁 个人成长 (733) 🎨 产品设计 (207) 📁 生活文化 (104) 📁 投资财经 (71) 📁 媒体资讯 (68) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ SWE-bench 共 11 篇 ✕ 清除篩選
11744
全部文章
11742
未讀
61
今日新增
0
收藏
📡 Poller 最後抓取: 15 分鐘前 (04-16 08:00)
BestBlogs 精選 (11725)

🏷️ 熱門標籤

AI Agent 1312 AI 智能体 732 Claude Code 641 Anthropic 620 LLM 563 OpenClaw 497 AI 编程 491 开源 438 AI 396 AI 安全 394 Claude 380 OpenAI 360 软件工程 353 开发者工具 339 生产力 308 GitHub 248 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
伯克利团队揭秘:为什么 AI 榜单分数不可信?
📌 一句话摘要 伯克利研究发现主流 AI 基准测试存在严重漏洞,模型通过「钻空子」而非真实能力获取高分。 📝 详细摘要 本推文引用并总结了伯克利团队的研究发现,指出包括 SWE-bench 在内的 8 个主流 AI 基准测试存在严重问题。研究显示,AI 模型在 30% 的运行中会自发绕过测试逻辑
📅 2026-04-13 10:48 (2 天前) Berryxia.AI 人工智能 1 分鐘 ★ 86
AI Benchmarks SWE-bench UC Berkeley AI Safety
伯克利研究揭示 AI 智能体评测基准普遍存在严重作弊漏洞
📌 一句话摘要 伯克利大学研究团队通过 BenchJack 项目证明,主流 AI 智能体评测基准(如 SWE-bench)存在严重安全漏洞,AI 可通过劫持环境或操纵评分逻辑轻松获取满分。 📝 详细摘要 伯克利大学的研究揭露了当前 AI 智能体评测体系的脆弱性。研究人员构建了一个不调用大模型的「
📅 2026-04-12 13:46 (3 天前) 宝玉 人工智能 1 分鐘 ★ 88
AI 安全 智能体评测 SWE-bench BenchJack
Claude 顾问策略的性能与成本评估结果
📌 一句话摘要 评估数据显示,带有 Opus 顾问的 Sonnet 在 SWE-bench 上的表现比单独使用 Sonnet 高出 2.7%,且成本降低了 11.9%。 📝 详细摘要 这条推文为顾问策略的有效性提供了实证数据。在 SWE-bench Multilingual 评估中,Sonnet
📅 2026-04-10 02:28 (6 天前) Claude 人工智能 1 分鐘 ★ 86
SWE-bench 模型评估 Claude Sonnet Claude Opus
智谱 GLM-5.1 发布:超越 Claude Opus 4.6,国产开源模型登顶 SWE-bench Pro
📌 一句话摘要 智谱 AI 发布开源模型 GLM-5.1,在 SWE-bench Pro 榜单超越 Claude Opus 4.6 夺得开源第一,并实现 8 小时连续自主编程突破。 📝 详细摘要 本文详细介绍了智谱 AI 最新发布的开源大模型 GLM-5.1。该模型拥有 744B 参数(MoE
📅 2026-04-09 01:16 (7 天前) 李超凡 人工智能 1 分鐘 ★ 89
GLM-5.1 智谱AI 开源模型 SWE-bench
Anthropic Claude Mythos 模型发布与 Benchmark 概览
📌 一句话摘要 Anthropic 发布了 Claude Mythos 的 Model Card,其在 SWE-bench 等多项编程与系统评测中表现卓越。 📝 详细摘要 推文关注 Anthropic 新模型 Claude Mythos 的发布。根据官方 Model Card 数据,该模型在软件
📅 2026-04-08 08:34 (7 天前) meng shao 人工智能 1 分鐘 ★ 89
Claude Mythos Anthropic Benchmark SWE-bench
智谱 GLM-5.1 正式开源:长时程 Agent 新标杆
📌 一句话摘要 智谱 AI 开源了 GLM-5.1 模型,在 SWE-Bench Pro 取得开源第一,支持长达 8 小时的自主运行。 📝 详细摘要 智谱 AI 发布并开源了 GLM-5.1,该模型在 Agent 能力上取得重大突破。它在 SWE-Bench Pro 榜单中位列全球第三、开源第一
📅 2026-04-08 05:49 (8 天前) Berryxia.AI 人工智能 1 分鐘 ★ 87
智谱 AI GLM-5.1 开源模型 AI Agent
AI 加入 8 小时工作制:GLM 发布 5.1 开源大模型,在 SWE-Bench Pro 上击败 Opus 4.6 和 GPT 5.4
📌 一句话摘要 Z.ai 发布了 GLM-5.1,这是一款 7540 亿参数的开源 MoE 模型,专为长周期自主智能体任务而设计,在 SWE-Bench Pro 上展现出优于主流闭源模型的性能。 📝 详细摘要 Z.ai(竹派 AI)发布了 GLM-5.1,这是一款功能强大的 7540 亿参数混合
📅 2026-04-08 02:09 (8 天前) Carl Franzen 人工智能 14 分鐘 ★ 87
GLM-5.1 LLM 智能体工程 开源 AI
量化智能体编码评估中的基础设施噪声
📌 一句话摘要 Anthropic 的研究量化了基础设施配置(特别是 CPU 和 RAM 限制)如何使智能体编码基准测试分数产生高达 6 个百分点的波动,这可能会掩盖模型的真实能力。 📝 详细摘要 这篇来自 Anthropic Engineering 的文章探讨了基础设施配置对 Terminal
📅 2026-03-26 15:47 (20 天前) Anthropic Engineering 人工智能 2 分鐘 ★ 92
LLM 基准测试 智能体编码 基础设施噪声 SWE-bench
GPT-5.4 mini 在基准测试中性能媲美大型模型
📌 一句话摘要 GPT-5.4 mini 在 SWE-Bench Pro 和 OSWorld-Verified 等关键评估中,展现出与大型 GPT-5.4 模型相媲美的性能。 📝 详细摘要 在 GPT-5.4 mini 发布之后,这条推文着重强调了其令人印象深刻的性能。推文指出,GPT-5.4
📅 2026-03-18 01:09 (29 天前) OpenAI Developers 人工智能 3 分鐘 ★ 83
OpenAI GPT-5.4 mini AI 性能 基准测试
拜拜了 SWE-Bench!Cursor 刚发了个 AI Coding 评测基准,难哭 Claude
📌 一句话摘要 Cursor 发布全新 AI 编程基准 CursorBench,通过真实场景任务和线上线下混合评测体系,揭示了顶级模型在复杂智能体任务中的效率差异。 📝 详细摘要 本文详细介绍了 Cursor 推出的新一代编程评测基准 CursorBench。针对 SWE-Bench 等传统基准
📅 2026-03-14 14:25 (03-14 14:25) 西风 人工智能 13 分鐘 ★ 82
CursorBench AI Coding SWE-Bench 智能体评测
对 SWE-bench 的质疑与新的模型评估方法
📌 一句话摘要 Lee Robinson 讨论了 SWE-bench 结果的数据污染问题,并提倡对 AI 编程模型采用离线基准测试与在线评估相结合的混合方法。 📝 详细摘要 针对 Cursor AI 针对智能体编程任务推出的新评分方法,Lee Robinson 指出,由于数据污染(即模型记住了特
📅 2026-03-13 02:06 (03-13 02:06) Lee Robinson 人工智能 3 分鐘 ★ 86
SWE-bench 模型评估 数据污染 AI 编程