SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (11742)
★ 收藏 (0)
🤖 人工智能 (7549)
📊 商业科技 (1777)
💻 软件编程 (1190)
📁 个人成长 (733)
🎨 产品设计 (207)
📁 生活文化 (104)
📁 投资财经 (71)
📁 媒体资讯 (69)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ 智能体评测
共 2 篇
✕ 清除篩選
11744
全部文章
11742
未讀
62
今日新增
0
收藏
📡 Poller
最後抓取:
2 小時前
(04-16 08:00)
BestBlogs 精選 (11725)
🏷️ 熱門標籤
AI Agent
1312
AI 智能体
732
Claude Code
641
Anthropic
620
LLM
563
OpenClaw
497
AI 编程
491
开源
438
AI
396
AI 安全
394
Claude
380
OpenAI
360
软件工程
353
开发者工具
339
生产力
308
GitHub
248
自动化
238
AI 基础设施
227
AI 开发
224
MCP
223
●
伯克利研究揭示 AI 智能体评测基准普遍存在严重作弊漏洞
📌 一句话摘要 伯克利大学研究团队通过 BenchJack 项目证明,主流 AI 智能体评测基准(如 SWE-bench)存在严重安全漏洞,AI 可通过劫持环境或操纵评分逻辑轻松获取满分。 📝 详细摘要 伯克利大学的研究揭露了当前 AI 智能体评测体系的脆弱性。研究人员构建了一个不调用大模型的「
📅 2026-04-12 13:46
(3 天前)
宝玉
人工智能
1 分鐘
★ 88
AI 安全
智能体评测
SWE-bench
BenchJack
●
拜拜了 SWE-Bench!Cursor 刚发了个 AI Coding 评测基准,难哭 Claude
📌 一句话摘要 Cursor 发布全新 AI 编程基准 CursorBench,通过真实场景任务和线上线下混合评测体系,揭示了顶级模型在复杂智能体任务中的效率差异。 📝 详细摘要 本文详细介绍了 Cursor 推出的新一代编程评测基准 CursorBench。针对 SWE-Bench 等传统基准
📅 2026-03-14 14:25
(03-14 14:25)
西风
人工智能
13 分鐘
★ 82
CursorBench
AI Coding
SWE-Bench
智能体评测