全部 未讀 (11742) ★ 收藏 (0) 🤖 人工智能 (7549) 📊 商业科技 (1777) 💻 软件编程 (1190) 📁 个人成长 (733) 🎨 产品设计 (207) 📁 生活文化 (104) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 智能体评测 共 2 篇 ✕ 清除篩選
11744
全部文章
11742
未讀
62
今日新增
0
收藏
📡 Poller 最後抓取: 2 小時前 (04-16 08:00)
BestBlogs 精選 (11725)

🏷️ 熱門標籤

AI Agent 1312 AI 智能体 732 Claude Code 641 Anthropic 620 LLM 563 OpenClaw 497 AI 编程 491 开源 438 AI 396 AI 安全 394 Claude 380 OpenAI 360 软件工程 353 开发者工具 339 生产力 308 GitHub 248 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
伯克利研究揭示 AI 智能体评测基准普遍存在严重作弊漏洞
📌 一句话摘要 伯克利大学研究团队通过 BenchJack 项目证明,主流 AI 智能体评测基准(如 SWE-bench)存在严重安全漏洞,AI 可通过劫持环境或操纵评分逻辑轻松获取满分。 📝 详细摘要 伯克利大学的研究揭露了当前 AI 智能体评测体系的脆弱性。研究人员构建了一个不调用大模型的「
📅 2026-04-12 13:46 (3 天前) 宝玉 人工智能 1 分鐘 ★ 88
AI 安全 智能体评测 SWE-bench BenchJack
拜拜了 SWE-Bench!Cursor 刚发了个 AI Coding 评测基准,难哭 Claude
📌 一句话摘要 Cursor 发布全新 AI 编程基准 CursorBench,通过真实场景任务和线上线下混合评测体系,揭示了顶级模型在复杂智能体任务中的效率差异。 📝 详细摘要 本文详细介绍了 Cursor 推出的新一代编程评测基准 CursorBench。针对 SWE-Bench 等传统基准
📅 2026-03-14 14:25 (03-14 14:25) 西风 人工智能 13 分鐘 ★ 82
CursorBench AI Coding SWE-Bench 智能体评测