📡 Poller 最後抓取: 1 小時前 (04-18 16:01)
BestBlogs 精選 (12188)
🏷️ 熱門標籤
● 伯克利团队揭秘:为什么 AI 榜单分数不可信?
📅 2026-04-13 10:48 (5 天前) Berryxia.AI 人工智能 1 分鐘 ★ 86
● 伯克利 AI 基准测试研究原文链接
📅 2026-04-13 11:35 (5 天前) Berryxia.AI 人工智能 1 分鐘 ★ 75
● Anthropic Claude Mythos 模型发布与 Benchmark 概览
📅 2026-04-08 08:34 (10 天前) meng shao 人工智能 1 分鐘 ★ 89
● MiroMind 与 MiroEval:深度研究代理基准测试
📅 2026-04-07 03:51 (11 天前) 马东锡 NLP 人工智能 1 分鐘 ★ 81
● PinchBench:面向 OpenClaw 的真实世界 AI Agent 基准测试系统
📅 2026-03-28 22:09 (20 天前) meng shao 人工智能 1 分鐘 ★ 82
● 本地模型 Tool Calling 能力测试框架
📅 2026-03-28 14:52 (21 天前) AI Will 人工智能 1 分鐘 ★ 81
● Benchmark 5000 万美元押注:下一个独角兽是让实习生也能造 AI Agent
● 谷歌 DeepMind 首发 AGI 终极考纲!20 万全球悬赏,撕下所有大模型伪装
● AI 嘴上说公平,实则偏见?首个基准给大模型做心理体检 | ICLR'26
📅 2026-03-14 13:01 (03-14 13:01) 新智元 人工智能 7 分鐘 ★ 85