全部 未讀 (12221) ★ 收藏 (0) 🤖 人工智能 (7782) 📊 商业科技 (1917) 💻 软件编程 (1217) 📁 个人成长 (761) 🎨 产品设计 (214) 📁 生活文化 (130) 📁 媒体资讯 (80) 📁 投资财经 (76) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ AI 评测 共 6 篇 ✕ 清除篩選
12223
全部文章
12221
未讀
93
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-18 18:00)
BestBlogs 精選 (12202)

🏷️ 熱門標籤

AI Agent 1369 AI 智能体 737 Claude Code 656 Anthropic 650 LLM 564 AI 编程 536 OpenClaw 501 开源 444 AI 安全 409 Claude 400 AI 398 OpenAI 371 软件工程 359 开发者工具 348 生产力 308 GitHub 254 自动化 241 AI 基础设施 229 AI 开发 226 MCP 225
短短 3 个月,高德已拿下具身智能领域 15 项世界第一
📌 一句话摘要 高德 Abot-world 系列世界模型在 Agibot World Challenge 与 World Arena 两大国际评测中登顶,并在三个月内累计获得 15 项权威评测第一,标志着其在具身智能核心的世界模型构建能力上取得突破。 📝 详细摘要 文章报道了高德在具身智能领域的
📅 2026-04-16 11:45 (2 天前) 量子位的朋友们 人工智能 2 分鐘 ★ 87
具身智能 世界模型 高德 机器人
Agent 记忆赛道大洗牌!LoCoMo-Refined 重磅发布,主流记忆框架迎来核心检验
📌 一句话摘要 本文介绍了由南京大学与上海人工智能实验室联合发布的 Agent 记忆评测新基准 LoCoMo-Refined,该基准通过修正数据集和引入更严格的评判标准,揭示了主流记忆框架在旧基准下得分虚高的问题,并展示了其在严苛标准下的真实性能。 📝 详细摘要 文章详细阐述了南京大学与上海人工
📅 2026-04-15 16:31 (3 天前) AI科技评论 人工智能 2 分鐘 ★ 87
Agent 记忆 评测基准 LoCoMo-Refined 记忆系统
ARC Prize 开源 ARC-AGI-3 人类基准数据集
📌 一句话摘要 ARC Prize 正式开源了迄今为止最全面的 ARC-AGI-3 人类基准数据集,引入了新的度量标准并改进了评分规则。 📝 详细摘要 这条推文转述了 ARC Prize 组织的一个重要动态:开源 ARC-AGI-3 人类基准数据集。该数据集是 ARC-AGI 系列中迄今为止最全
📅 2026-04-15 08:50 (3 天前) Berryxia.AI 人工智能 1 分鐘 ★ 79
ARC Prize AGI 基准测试 数据集
GLM-5.1 第一印象视频回顾
📌 一句话摘要 LMSYS Arena 分享了一段 YouTube 视频,由 Peter 带来对新发布的 GLM-5.1 模型的初步体验和深度评测。 📝 详细摘要 这是该推文链的后续内容,提供了一个 YouTube 视频评测链接。视频中,来自 LMSYS 团队的 Peter 分享了他对 GLM-
📅 2026-04-08 06:15 (10 天前) Arena.ai 人工智能 1 分鐘 ★ 78
GLM-5.1 AI 评测 LMSYS 模型评估
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31 (03-16 08:31) 阿里云开发者 人工智能 1 分鐘 ★ 89
HeartBench AI 评测 拟人化能力 LLM-as-a-Judge
OpenAI 为龙虾紧急收购了一家 23 人公司
📌 一句话摘要 OpenAI 宣布收购开源 AI 评测工具 Promptfoo,旨在通过工程化手段解决智能体(Agent)时代日益严峻的安全与合规挑战。 📝 详细摘要 本文报道了 OpenAI 收购初创公司 Promptfoo 的深度背景。Promptfoo 是一家专注于 AI 安全与评测的 2
📅 2026-03-10 08:13 (03-10 08:13) 一水 人工智能 1 分鐘 ★ 85
OpenAI Promptfoo 智能体安全 AI 评测框架