全部 未讀 (11783) ★ 收藏 (0) 🤖 人工智能 (7568) 📊 商业科技 (1784) 💻 软件编程 (1196) 📁 个人成长 (735) 🎨 产品设计 (208) 📁 生活文化 (108) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ 评测基准 共 7 篇 ✕ 清除篩選
11785
全部文章
11783
未讀
102
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-16 12:00)
BestBlogs 精選 (11766)

🏷️ 熱門標籤

AI Agent 1319 AI 智能体 732 Claude Code 643 Anthropic 621 LLM 563 OpenClaw 498 AI 编程 497 开源 438 AI 396 AI 安全 395 Claude 381 OpenAI 362 软件工程 354 开发者工具 341 生产力 308 GitHub 249 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
Agent 记忆赛道大洗牌!LoCoMo-Refined 重磅发布,主流记忆框架迎来核心检验
📌 一句话摘要 本文介绍了由南京大学与上海人工智能实验室联合发布的 Agent 记忆评测新基准 LoCoMo-Refined,该基准通过修正数据集和引入更严格的评判标准,揭示了主流记忆框架在旧基准下得分虚高的问题,并展示了其在严苛标准下的真实性能。 📝 详细摘要 文章详细阐述了南京大学与上海人工
📅 2026-04-15 16:31 (21 小時前) AI科技评论 人工智能 2 分鐘 ★ 87
Agent 记忆 评测基准 LoCoMo-Refined 记忆系统
15 个前沿大模型,100 个职业场景:谁才是最强 AI 打工人?
📌 一句话摘要 本文介绍了通义千问与港中文联合发布的 OccuBench 评测基准,它利用语言世界模型模拟 100 个职业场景,对 15 个前沿大模型的 AI Agent 能力进行了系统性评测,并揭示了模型在专业领域、故障处理及环境模拟能力上的显著差异。 📝 详细摘要 文章详细解读了由通义千问团
📅 2026-04-15 16:31 (21 小時前) AI科技评论 人工智能 2 分鐘 ★ 87
AI Agent 评测基准 语言世界模型 OccuBench
南大团队直击大模型高分神话:人类 90 分,最强模型仅 49 分
📌 一句话摘要 南京大学傅朝友团队发布视频理解新基准 Video-MME-v2,通过创新的三层能力体系与组级非线性评分,揭示了当前最强视频模型与人类专家在严格评测下存在巨大差距,并发现「思维链」增益高度依赖文本线索。 📝 详细摘要 文章报道了南京大学傅朝友团队在 Google Gemini 评测
📅 2026-04-13 12:04 (3 天前) 新智元 人工智能 2 分鐘 ★ 91
多模态大模型 视频理解 评测基准 南京大学
鹏城实验室与中大推出 RADAR:具身智能评测新标杆
📌 一句话摘要 RADAR 是一个专为具身智能设计的评测基准,通过引入物理动态性建模、空间推理任务及全自动化 3D 评估流程,旨在解决现有评测体系与真实世界表现脱节的问题。 📝 详细摘要 本文介绍了由鹏城实验室与中山大学 hcp 实验室联合推出的具身智能评测基准 RADAR。针对当前具身智能领域
📅 2026-03-26 18:09 (20 天前) AI科技评论 人工智能 1 分鐘 ★ 86
具身智能 RADAR VLA 评测基准
Kaggle 竞赛:20 万美元奖金征集 AGI 进展评测基准
📌 一句话摘要 Logan Kilpatrick 宣布一项 Kaggle 竞赛,旨在征集衡量通用人工智能 (AGI) 认知能力的评测基准,并提供 20 万美元奖金。 📝 详细摘要 这则推文来自 Google Gemini API 的主要产品负责人 Logan Kilpatrick,他宣布了一项新
📅 2026-03-18 02:46 (29 天前) Logan Kilpatrick 人工智能 1 分鐘 ★ 82
AGI 评测基准 Kaggle AI 竞赛
急需 AGI 新基准:聚焦学习、元认知、注意力、执行功能与社会认知
📌 一句话摘要 这则后续推文阐述了为何需要新的严格 AGI 评测基准,并重点提及了学习、元认知、注意力、执行功能和社会认知等维度,同时提供了竞赛链接。 📝 详细摘要 作为竞赛公告的后续,这则推文详细阐述了为何需要新的 AGI 评测基准。它指出,现有基准正被当前的 AI 模型所“饱和”,因此亟需更
📅 2026-03-18 02:46 (29 天前) Logan Kilpatrick 人工智能 2 分鐘 ★ 85
AGI 评测基准 认知 AI AI 评估 元认知
迈向原生全模态 AI 智能体:人大&小红书发布 OmniGAIA 新基准
📌 一句话摘要 人大与小红书联合发布 OmniGAIA 基准与 OmniAtlas 框架,旨在评估并提升原生全模态 AI 智能体在长程推理与工具调用方面的核心能力。 📝 详细摘要 本文详细介绍了由中国人民大学、小红书等机构联合研发的 OmniGAIA 基准和 OmniAtlas 训练框架。针对当
📅 2026-03-11 12:02 (03-11 12:02) PaperAgent 人工智能 7 分鐘 ★ 86
全模态大模型 AI Agent OmniGAIA OmniAtlas