SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (12221)
★ 收藏 (0)
🤖 人工智能 (7782)
📊 商业科技 (1917)
💻 软件编程 (1217)
📁 个人成长 (761)
🎨 产品设计 (214)
📁 生活文化 (130)
📁 媒体资讯 (80)
📁 投资财经 (76)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ AI 评测
共 6 篇
✕ 清除篩選
12223
全部文章
12221
未讀
93
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(04-18 18:00)
BestBlogs 精選 (12202)
🏷️ 熱門標籤
AI Agent
1369
AI 智能体
737
Claude Code
656
Anthropic
650
LLM
564
AI 编程
536
OpenClaw
501
开源
444
AI 安全
409
Claude
400
AI
398
OpenAI
371
软件工程
359
开发者工具
348
生产力
308
GitHub
254
自动化
241
AI 基础设施
229
AI 开发
226
MCP
225
●
短短 3 个月,高德已拿下具身智能领域 15 项世界第一
📌 一句话摘要 高德 Abot-world 系列世界模型在 Agibot World Challenge 与 World Arena 两大国际评测中登顶,并在三个月内累计获得 15 项权威评测第一,标志着其在具身智能核心的世界模型构建能力上取得突破。 📝 详细摘要 文章报道了高德在具身智能领域的
📅 2026-04-16 11:45
(2 天前)
量子位的朋友们
人工智能
2 分鐘
★ 87
具身智能
世界模型
高德
机器人
●
Agent 记忆赛道大洗牌!LoCoMo-Refined 重磅发布,主流记忆框架迎来核心检验
📌 一句话摘要 本文介绍了由南京大学与上海人工智能实验室联合发布的 Agent 记忆评测新基准 LoCoMo-Refined,该基准通过修正数据集和引入更严格的评判标准,揭示了主流记忆框架在旧基准下得分虚高的问题,并展示了其在严苛标准下的真实性能。 📝 详细摘要 文章详细阐述了南京大学与上海人工
📅 2026-04-15 16:31
(3 天前)
AI科技评论
人工智能
2 分鐘
★ 87
Agent 记忆
评测基准
LoCoMo-Refined
记忆系统
●
ARC Prize 开源 ARC-AGI-3 人类基准数据集
📌 一句话摘要 ARC Prize 正式开源了迄今为止最全面的 ARC-AGI-3 人类基准数据集,引入了新的度量标准并改进了评分规则。 📝 详细摘要 这条推文转述了 ARC Prize 组织的一个重要动态:开源 ARC-AGI-3 人类基准数据集。该数据集是 ARC-AGI 系列中迄今为止最全
📅 2026-04-15 08:50
(3 天前)
Berryxia.AI
人工智能
1 分鐘
★ 79
ARC Prize
AGI
基准测试
数据集
●
GLM-5.1 第一印象视频回顾
📌 一句话摘要 LMSYS Arena 分享了一段 YouTube 视频,由 Peter 带来对新发布的 GLM-5.1 模型的初步体验和深度评测。 📝 详细摘要 这是该推文链的后续内容,提供了一个 YouTube 视频评测链接。视频中,来自 LMSYS 团队的 Peter 分享了他对 GLM-
📅 2026-04-08 06:15
(10 天前)
Arena.ai
人工智能
1 分鐘
★ 78
GLM-5.1
AI 评测
LMSYS
模型评估
●
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31
(03-16 08:31)
阿里云开发者
人工智能
1 分鐘
★ 89
HeartBench
AI 评测
拟人化能力
LLM-as-a-Judge
●
OpenAI 为龙虾紧急收购了一家 23 人公司
📌 一句话摘要 OpenAI 宣布收购开源 AI 评测工具 Promptfoo,旨在通过工程化手段解决智能体(Agent)时代日益严峻的安全与合规挑战。 📝 详细摘要 本文报道了 OpenAI 收购初创公司 Promptfoo 的深度背景。Promptfoo 是一家专注于 AI 安全与评测的 2
📅 2026-03-10 08:13
(03-10 08:13)
一水
人工智能
1 分鐘
★ 85
OpenAI
Promptfoo
智能体安全
AI 评测框架