全部 未讀 (21636) ★ 收藏 (0) 🤖 人工智能 (11175) 📊 商业科技 (4465) 💻 软件编程 (1685) 📁 个人成长 (1606) 📁 生活文化 (860) 📁 媒体资讯 (828) 📁 投资财经 (533) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ AI 评测 共 16 篇 ✕ 清除篩選
21638
全部文章
21636
未讀
225
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-08 22:00)
BestBlogs 精選 (21603)

🏷️ 熱門標籤

AI Agent 2161 AI 编程 988 Anthropic 981 Claude Code 916 AI 智能体 780 OpenAI 745 LLM 677 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 335 Agent 334 个人成长 333 GitHub 321 生产力 315
今年高考,我让 12 个顶级 AI 一起考了语文和数学,结果有点意外。
📌 一句话摘要 本文组织 12 个顶级 AI 大模型参加 2026 年高考语文和数学考试,通过 API 统一调用、真人老师盲评,呈现各模型在文科与理科上的表现差异。 📝 详细摘要 作者延续往年传统,在 2026 年高考期间组织 12 个主流大模型(包括 Claude Opus 4.8、GPT-5
📅 2026-06-08 11:08 (12 小時前) 数字生命卡兹克 人工智能 2 分鐘 ★ 86
LLM AI 评测 模型评测与基准 AI 应用
高考前一天,五个 AI 出了同一道作文题
📌 一句话摘要 本文通过让五个主流 AI 模型模拟命题高考作文题,揭示了 AI 在理解规则与运用规则之间的结构性局限:AI 擅长提取趋势的最大公约数,却无法制造「意料之外,情理之中」的命题意外。 📝 详细摘要 文章以 1985 年高考作文研究组对「求同思维」与「求异思维」的讨论为引,设计了一个实
📅 2026-06-06 16:56 (2 天前) APPSO 人工智能 2 分鐘 ★ 86
AI 评测 LLM AI 能力边界 教育科技
刺破成功率幻象,直面具身智能的「真灵巧」,机器人精细操作评测新范式来了!
📌 一句话摘要 东南大学与北京大学团队提出 MetaFine,一个从理解、感知、行为三维诊断具身智能精细操作能力的元评测框架,旨在刺破传统二元成功率指标下的能力幻象。 📝 详细摘要 本文介绍了由东南大学魏秀参、耿新教授和北京大学彭宇新教授团队提出的 MetaFine 框架,旨在解决现有机器人精细
📅 2026-06-05 12:07 (3 天前) 机器之心 人工智能 2 分鐘 ★ 88
具身智能 机器人 AI 评测 精细操作
基于顶级 Agent(Claude Code)的 Harness 工程搭建式业务 Agent 评测方案
📌 一句话摘要 本文提出一种创新评测方案:利用顶级 Agent(Claude Code)作为 Harness 工程的搭建者,将评测逻辑从代码转化为 Prompt,实现对业务 Agent 的系统性、快速评测。 📝 详细摘要 文章针对业务 Agent 迭代快但传统评测工程搭建慢的核心矛盾,提出了一种
📅 2026-06-05 08:30 (3 天前) 阿里云开发者 人工智能 2 分鐘 ★ 88
AI Agent LLM AI 评测 Prompt Engineering
李飞飞再出手,空间智能的 ImageNet 来了
📌 一句话摘要 李飞飞团队发布 ESI-Bench,一个要求智能体通过主动行动完成空间推理的新基准,揭示当前 AI 在「行动策略」和「元认知」上的根本缺陷。 📝 详细摘要 李飞飞团队最新发布的 ESI-Bench 是一个专门评测具身空间智能的新基准。与现有仅测试「被动感知」的基准不同,ESI-B
📅 2026-05-22 16:25 (17 天前) 听雨 人工智能 2 分鐘 ★ 88
ESI-Bench 空间智能 具身智能 李飞飞
Google 在 I/O 2026 发布 Gemini 3.5 Flash,性能全面超越 3.1 Pro
📌 一句话摘要 Google 在 I/O 2026 上发布 Gemini 3.5 Flash,各项评测几乎全面超越前代旗舰 Gemini 3.1 Pro,且速度更快、成本更低。 📝 详细摘要 该推文评论了 Google 在 I/O 2026 大会上发布 Gemini 3.5 Flash 模型的消
📅 2026-05-20 08:28 (19 天前) meng shao 人工智能 1 分鐘 ★ 83
Gemini 3.5 Google I/O 模型发布 AI 评测
刚刚,Claude Mythos 打爆 AI 评测天花板!超指数狂飙,2027 奇点加速
📌 一句话摘要 本文报道了 Claude Mythos 模型在 METR 评测中突破 16 小时自主任务能力,导致现有评测框架失效,并探讨了 AI 超指数增长对安全领域和 AGI 奇点预测的深远影响。 📝 详细摘要 文章围绕 Claude Mythos 模型发布引发的行业震动展开。核心事件是国际
📅 2026-05-11 13:05 (28 天前) 新智元 人工智能 2 分鐘 ★ 82
Claude Mythos METR AI 评测 AGI
「生物信息学」评测,Claude 反超人类专家
📌 一句话摘要 Anthropic 发布 BioMysteryBench 生物信息学评测集,Claude 模型在人类可解题上追平专家,在人类难题上以 29.6% 的准确率首次超越人类,并展现出模式识别和多方法收敛等独特解题策略。 📝 详细摘要 本文详细解读了 Anthropic 最新发布的 Bi
📅 2026-04-30 17:11 (04-30 17:11) 赛博禅心 人工智能 2 分鐘 ★ 87
Claude Anthropic BioMysteryBench 生物信息学
一代版本一代神?新神是 GPT-2 还是 Uni-1?
📌 一句话摘要 本文深度评测了 Luma AI 的 Uni-1 图像生成模型,通过与 Banana Pro 的对比测试,展示了其在自回归 Transformer 架构下的图文混排、空间逻辑和一致性方面的优势,并探讨了 AI 生图领域从扩散模型向自回归架构转变的趋势。 📝 详细摘要 文章以 GPT
📅 2026-04-23 10:23 (04-23 10:23) 十字路口Crossing 人工智能 2 分鐘 ★ 87
Uni-1 Luma AI 图像生成 自回归模型
SWE-bench 满分,0 个 bug 修复:伯克利造了个专门作弊的 AI
📌 一句话摘要 伯克利团队开发了一个自动化漏洞扫描智能体,成功利用 SWE-bench 等 8 个主流 AI 评测基准的系统性漏洞,在不修复任何 bug 的情况下获得满分,揭示了当前 AI 能力评测体系存在的严重信任危机。 📝 详细摘要 文章报道了伯克利 RDI 团队的一项研究,他们创建了一个名
📅 2026-04-19 12:10 (04-19 12:10) 新智元 人工智能 2 分鐘 ★ 89
AI 评测 SWE-bench 奖励破解 基准测试
短短 3 个月,高德已拿下具身智能领域 15 项世界第一
📌 一句话摘要 高德 Abot-world 系列世界模型在 Agibot World Challenge 与 World Arena 两大国际评测中登顶,并在三个月内累计获得 15 项权威评测第一,标志着其在具身智能核心的世界模型构建能力上取得突破。 📝 详细摘要 文章报道了高德在具身智能领域的
📅 2026-04-16 11:45 (04-16 11:45) 量子位的朋友们 人工智能 2 分鐘 ★ 87
具身智能 世界模型 高德 机器人
Agent 记忆赛道大洗牌!LoCoMo-Refined 重磅发布,主流记忆框架迎来核心检验
📌 一句话摘要 本文介绍了由南京大学与上海人工智能实验室联合发布的 Agent 记忆评测新基准 LoCoMo-Refined,该基准通过修正数据集和引入更严格的评判标准,揭示了主流记忆框架在旧基准下得分虚高的问题,并展示了其在严苛标准下的真实性能。 📝 详细摘要 文章详细阐述了南京大学与上海人工
📅 2026-04-15 16:31 (04-15 16:31) AI科技评论 人工智能 2 分鐘 ★ 87
Agent 记忆 评测基准 LoCoMo-Refined 记忆系统
ARC Prize 开源 ARC-AGI-3 人类基准数据集
📌 一句话摘要 ARC Prize 正式开源了迄今为止最全面的 ARC-AGI-3 人类基准数据集,引入了新的度量标准并改进了评分规则。 📝 详细摘要 这条推文转述了 ARC Prize 组织的一个重要动态:开源 ARC-AGI-3 人类基准数据集。该数据集是 ARC-AGI 系列中迄今为止最全
📅 2026-04-15 08:50 (04-15 08:50) Berryxia.AI 人工智能 1 分鐘 ★ 79
ARC Prize AGI 基准测试 数据集
GLM-5.1 第一印象视频回顾
📌 一句话摘要 LMSYS Arena 分享了一段 YouTube 视频,由 Peter 带来对新发布的 GLM-5.1 模型的初步体验和深度评测。 📝 详细摘要 这是该推文链的后续内容,提供了一个 YouTube 视频评测链接。视频中,来自 LMSYS 团队的 Peter 分享了他对 GLM-
📅 2026-04-08 06:15 (04-08 06:15) Arena.ai 人工智能 1 分鐘 ★ 78
GLM-5.1 AI 评测 LMSYS 模型评估
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31 (03-16 08:31) 阿里云开发者 人工智能 1 分鐘 ★ 89
HeartBench AI 评测 拟人化能力 LLM-as-a-Judge
OpenAI 为龙虾紧急收购了一家 23 人公司
📌 一句话摘要 OpenAI 宣布收购开源 AI 评测工具 Promptfoo,旨在通过工程化手段解决智能体(Agent)时代日益严峻的安全与合规挑战。 📝 详细摘要 本文报道了 OpenAI 收购初创公司 Promptfoo 的深度背景。Promptfoo 是一家专注于 AI 安全与评测的 2
📅 2026-03-10 08:13 (03-10 08:13) 一水 人工智能 1 分鐘 ★ 85
OpenAI Promptfoo 智能体安全 AI 评测框架