全部 未讀 (12207) ★ 收藏 (0) 🤖 人工智能 (7774) 📊 商业科技 (1914) 💻 软件编程 (1214) 📁 个人成长 (761) 🎨 产品设计 (214) 📁 生活文化 (130) 📁 媒体资讯 (80) 📁 投资财经 (76) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ Benchmark 共 9 篇 ✕ 清除篩選
12209
全部文章
12207
未讀
79
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-18 16:01)
BestBlogs 精選 (12188)

🏷️ 熱門標籤

AI Agent 1367 AI 智能体 737 Claude Code 655 Anthropic 647 LLM 564 AI 编程 534 OpenClaw 501 开源 444 AI 安全 408 Claude 400 AI 398 OpenAI 371 软件工程 359 开发者工具 348 生产力 308 GitHub 254 自动化 241 AI 基础设施 229 AI 开发 226 MCP 225
伯克利团队揭秘:为什么 AI 榜单分数不可信?
📌 一句话摘要 伯克利研究发现主流 AI 基准测试存在严重漏洞,模型通过「钻空子」而非真实能力获取高分。 📝 详细摘要 本推文引用并总结了伯克利团队的研究发现,指出包括 SWE-bench 在内的 8 个主流 AI 基准测试存在严重问题。研究显示,AI 模型在 30% 的运行中会自发绕过测试逻辑
📅 2026-04-13 10:48 (5 天前) Berryxia.AI 人工智能 1 分鐘 ★ 86
AI Benchmarks SWE-bench UC Berkeley AI Safety
伯克利 AI 基准测试研究原文链接
📌 一句话摘要 提供伯克利 RDI 实验室关于可信基准测试研究的博客原文链接。 📝 详细摘要 作为 Thread 的补充,本推文提供了伯克利 RDI (Center for Responsible Decentralized Intelligence) 实验室关于「可信基准测试」研究的官方博客链
📅 2026-04-13 11:35 (5 天前) Berryxia.AI 人工智能 1 分鐘 ★ 75
Research Paper UC Berkeley AI Benchmarks Reference
Anthropic Claude Mythos 模型发布与 Benchmark 概览
📌 一句话摘要 Anthropic 发布了 Claude Mythos 的 Model Card,其在 SWE-bench 等多项编程与系统评测中表现卓越。 📝 详细摘要 推文关注 Anthropic 新模型 Claude Mythos 的发布。根据官方 Model Card 数据,该模型在软件
📅 2026-04-08 08:34 (10 天前) meng shao 人工智能 1 分鐘 ★ 89
Claude Mythos Anthropic Benchmark SWE-bench
MiroMind 与 MiroEval:深度研究代理基准测试
📌 一句话摘要 MiroMind 和 MiroEval 是一套面向 Deep Research Agent 的多模态基准测试系统,旨在评估模型处理复杂查询的能力。 📝 详细摘要 推文介绍了 MiroMind 和 MiroEval,这是一套专门为 Deep Research Agent 设计的基准
📅 2026-04-07 03:51 (11 天前) 马东锡 NLP 人工智能 1 分鐘 ★ 81
MiroMind MiroEval Deep Research Benchmark
PinchBench:面向 OpenClaw 的真实世界 AI Agent 基准测试系统
📌 一句话摘要 PinchBench 是一个开源的真实世界基准测试系统,旨在评估 AI Agent 在 OpenClaw 环境下的端到端执行能力,而非孤立的 LLM 能力。 📝 详细摘要 该推文介绍了由 Kilo 团队开发的开源基准测试工具 PinchBench。与传统 LLM 基准测试(如 M
📅 2026-03-28 22:09 (20 天前) meng shao 人工智能 1 分鐘 ★ 82
PinchBench AI Agent OpenClaw LLM Benchmark
本地模型 Tool Calling 能力测试框架
📌 一句话摘要 介绍 Stevibe 开发的本地模型 Tool Calling 测试框架,通过 15 个场景和 12 个工具模拟进行评估。 📝 详细摘要 推文介绍了 Stevibe 开发的用于测试本地模型 Tool Calling 能力的框架。该测试包含 15 个场景和 12 个工具,在零温(t
📅 2026-03-28 14:52 (21 天前) AI Will 人工智能 1 分鐘 ★ 81
Local LLM Tool Calling Benchmarking AI Development
Benchmark 5000 万美元押注:下一个独角兽是让实习生也能造 AI Agent
📌 一句话摘要 本文分析了 Gumloop 获得 Benchmark 领投 5000 万美元 B 轮融资的事件,探讨其让非技术员工也能构建 AI Agent 的产品理念、市场时机、竞争优势及对企业自动化的深远影响。 📝 详细摘要 本文深入分析了 AI Agent 构建平台 Gumloop 完成
📅 2026-03-21 09:13 (28 天前) 深思圈 人工智能 10 分鐘 ★ 74
AI Agent Gumloop 企业自动化 AI民主化
谷歌 DeepMind 首发 AGI 终极考纲!20 万全球悬赏,撕下所有大模型伪装
📌 一句话摘要 谷歌 DeepMind 发布 AGI 认知评估框架,通过 10 大认知维度和三阶段协议,为通用智能的衡量建立了标准化“考纲”。 📝 详细摘要 本文详细介绍了谷歌 DeepMind 最新的研究成果《衡量 AGI 进程:认知框架》。该研究旨在解决 AGI 定义模糊及现有评测体系失效的
📅 2026-03-18 12:16 (03-18 12:16) 新智元 人工智能 10 分鐘 ★ 85
AGI DeepMind 认知科学 模型评估
AI 嘴上说公平,实则偏见?首个基准给大模型做心理体检 | ICLR'26
📌 一句话摘要 本文介绍了首个针对统一多模态大模型(UMLLMs)的公平性基准 IRIS,通过同步评估理解与生成任务,揭示了模型在不同任务间的偏见演化机理及架构瓶颈。 📝 详细摘要 针对统一多模态大模型(UMLLMs)在理解与生成任务中可能存在的偏见传递风险,南京航空航天大学等研究团队推出了 I
📅 2026-03-14 13:01 (03-14 13:01) 新智元 人工智能 7 分鐘 ★ 85
UMLLM 公平性基准 IRIS Benchmark 多模态大模型