全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ 大模型评估 共 4 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
Rubrics 综述:Agent 时代,如何定义一个「好答案」?
📌 一句话摘要 中国人民大学高瓴人工智能学院发布首篇 Rubrics 综述,系统梳理了 Rubrics 在大模型中的定义、构造方法、训练应用、评测场景与开放挑战,为 Agent 时代的多维度质量评估提供了统一框架。 📝 详细摘要 本文是对中国人民大学高瓴人工智能学院发布的 Rubrics 综述论
📅 2026-05-31 13:08 (8 天前) 机器之心 人工智能 2 分鐘 ★ 88
Rubrics 大模型评估 奖励模型 Agent
当 Agent 真正走进复杂数据分析场景:DataClawBench 用 492 个真实任务,给前沿模型做了一次过程级体检
📌 一句话摘要 DataClawBench 是一个基于 492 个真实金融智库任务的数据分析评测基准,通过保留未清洗数据和隐藏数据源先验,对前沿大模型进行过程级评估,揭示了它们在真实探索式分析场景中的能力边界与失败模式。 📝 详细摘要 本文由中山大学陈川课题组联合南方周末科创力研究中心发布,介绍
📅 2026-05-21 13:39 (18 天前) AI前线 人工智能 2 分鐘 ★ 88
DataClawBench 数据分析 Agent 评测基准 大模型评估
刷榜 AI 全挂了!Meta 斯坦福地狱级测试,GPT/Claude/Gemini 交出 0 分
📌 一句话摘要 Meta、斯坦福和哈佛联合发布 ProgramBench 基准测试,要求 AI 从零复现完整软件,9 款顶级模型通过率全部为 0%,揭示当前 AI 在系统设计与软件工程能力上的根本性缺陷。 📝 详细摘要 文章报道了由 SWE-Bench 原班人马(Meta、斯坦福、哈佛)联合推出
📅 2026-05-09 00:01 (05-09 00:01) 大模型智能 人工智能 2 分鐘 ★ 85
ProgramBench AI 编程 基准测试 软件工程
腾讯混元发布 CL-Bench Life,精准衡量模型在现实生活中的 “上下文学习” 能力
📌 一句话摘要 腾讯混元发布 CL-Bench Life 基准,旨在评估大模型在真实、碎片化、高噪声的日常生活场景中的上下文学习能力,测试发现当前最强模型平均仅能解决 14.5% 的任务。 📝 详细摘要 本文介绍了腾讯混元团队最新发布的 CL-Bench Life 基准,这是对之前 CL-Ben
📅 2026-05-01 14:10 (05-01 14:10) 腾讯混元 人工智能 2 分鐘 ★ 86
CL-Bench Life 上下文学习 大模型评估 腾讯混元