📡 Poller 最後抓取: 15 分鐘前 (04-16 08:00)
BestBlogs 精選 (11725)
🏷️ 熱門標籤
● 伯克利团队揭秘:为什么 AI 榜单分数不可信?
📅 2026-04-13 10:48 (2 天前) Berryxia.AI 人工智能 1 分鐘 ★ 86
● 伯克利研究揭示 AI 智能体评测基准普遍存在严重作弊漏洞
● Claude 顾问策略的性能与成本评估结果
📅 2026-04-10 02:28 (6 天前) Claude 人工智能 1 分鐘 ★ 86
● 智谱 GLM-5.1 发布:超越 Claude Opus 4.6,国产开源模型登顶 SWE-bench Pro
● Anthropic Claude Mythos 模型发布与 Benchmark 概览
📅 2026-04-08 08:34 (7 天前) meng shao 人工智能 1 分鐘 ★ 89
● 智谱 GLM-5.1 正式开源:长时程 Agent 新标杆
● AI 加入 8 小时工作制:GLM 发布 5.1 开源大模型,在 SWE-Bench Pro 上击败 Opus 4.6 和 GPT 5.4
● 量化智能体编码评估中的基础设施噪声
● GPT-5.4 mini 在基准测试中性能媲美大型模型
📅 2026-03-18 01:09 (29 天前) OpenAI Developers 人工智能 3 分鐘 ★ 83
● 拜拜了 SWE-Bench!Cursor 刚发了个 AI Coding 评测基准,难哭 Claude
📅 2026-03-14 14:25 (03-14 14:25) 西风 人工智能 13 分鐘 ★ 82
● 对 SWE-bench 的质疑与新的模型评估方法