全部 未讀 (11742) ★ 收藏 (0) 🤖 人工智能 (7549) 📊 商业科技 (1777) 💻 软件编程 (1189) 📁 个人成长 (733) 🎨 产品设计 (207) 📁 生活文化 (104) 📁 投资财经 (71) 📁 媒体资讯 (68) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ AI 评估 共 17 篇 ✕ 清除篩選
11744
全部文章
11742
未讀
61
今日新增
0
收藏
📡 Poller 最後抓取: 10 分鐘前 (04-16 08:00)
BestBlogs 精選 (11725)

🏷️ 熱門標籤

AI Agent 1312 AI 智能体 732 Claude Code 641 Anthropic 620 LLM 563 OpenClaw 497 AI 编程 491 开源 438 AI 396 AI 安全 394 Claude 380 OpenAI 360 软件工程 353 开发者工具 339 生产力 308 GitHub 248 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
Claude 最强模型 Mythos 7 个极其精彩的细节
📌 一句话摘要 本文深度解读了 Anthropic 最新模型 Claude Mythos 技术报告中的七个独特细节,包括其面对重复输入时的创造性、内部情绪轨迹、任务偏好、精神科医生评估、价值权衡、创意写作能力以及对自身宪法的哲学反思,展现了该模型超越传统技术评估的“气质”与 Anthropic 独
📅 2026-04-13 11:00 (2 天前) 硅星人Pro 人工智能 2 分鐘 ★ 87
Claude Mythos Anthropic 大语言模型 AI 评估
论文重构评估
📌 一句话摘要 一项评估 AI 撰写论文中呈现效果与幻觉问题的研究。 📝 详细摘要 该推文分享了一篇研究论文,旨在评估 AI 生成学术论文的质量,重点关注论文的呈现效果和幻觉问题。 📊 文章信息 AI 评分:80 来源:AK(@_akhaliq) 作者:AK 分类:人工智能 语言:英文 阅读时
📅 2026-04-07 00:04 (9 天前) AK 人工智能 1 分鐘 ★ 80
AI 评估 幻觉 LLM 研究
Agentic-MME:智能体能力究竟为多模态智能带来了什么?
📌 一句话摘要 一篇名为“Agentic-MME”的研究论文,调查了智能体能力在多模态智能系统中的具体影响和价值。 📝 详细摘要 这条推文分享了《Agentic-MME》研究论文,探讨了智能体能力与多模态智能的交叉领域。该研究旨在量化智能体特性对多模态模型性能和推理能力的实际贡献。 📊 文章信
📅 2026-04-06 12:04 (9 天前) AK 人工智能 1 分鐘 ★ 78
多模态 AI 智能体 AI 研究论文 AI 评估
Anthropic 推出用于比较 AI 模型行为的“diff”方法
📌 一句话摘要 Anthropic 研究人员引入了一种新方法,将软件开发中的“diff”原则应用于系统性地识别开放权重 AI 模型之间的行为差异。 📝 详细摘要 这条推文介绍了 Anthropic 研究员的一项新研究,该研究将软件开发中的“diff”(差异比较)概念应用于 AI 模型分析。通过应
📅 2026-04-04 05:28 (12 天前) Anthropic 人工智能 1 分鐘 ★ 86
Anthropic AI 研究 模型可解释性 开放权重
BizGenEval:商业视觉内容生成基准测试
📌 一句话摘要 BizGenEval 是一个用于评估商业视觉内容生成模型的新型系统性基准测试。 📝 详细摘要 这篇推文介绍了 BizGenEval,这是一个旨在评估商业视觉内容生成模型性能的系统性基准测试。它为评估这些模型的质量和能力提供了一种标准化的方法。 📊 文章信息 AI 评分:80 来
📅 2026-04-04 00:36 (12 天前) AK 人工智能 2 分鐘 ★ 80
BizGenEval 基准测试 视觉生成 AI 评估
微软研究院发布 ADeLe:精准预测 AI 模型性能的新框架
📌 一句话摘要 微软研究院在《Nature》上发表了 ADeLe 框架,旨在精准预测 AI 模型在未知任务上的表现。 📝 详细摘要 微软研究院推出了 ADeLe,这是一种发表在《Nature》期刊上的全新框架,通过分析 AI 模型的核心能力,来预测其在各种新任务上的表现。该研究解决了模型在部署前
📅 2026-04-02 01:00 (14 天前) Microsoft Research 人工智能 1 分鐘 ★ 84
ADeLe AI 评估 微软研究院 Nature
ADeLe:预测并解释跨任务的 AI 性能 - 微软研究院
📌 一句话摘要 ADeLe 是一种新颖的 AI 评估框架,通过 18 项核心能力对模型和任务进行表征,从而实现准确的性能预测,并深入洞察模型的优势与局限性。 📝 详细摘要 本文介绍了由微软研究院及其合作者开发的 ADeLe(AI Evaluation with Demand Levels)框架,
📅 2026-04-02 00:01 (14 天前) Brenda Potts 人工智能 1 分鐘 ★ 92
AI 评估 LLM 基准测试 模型性能
LLM 的镜像测试 — LessWrong
📌 一句话摘要 本文引入了一种“镜像窗口游戏”(Mirror-Window Game)来评估 LLM 的自我意识,结论是:虽然先进的模型能够区分自己的输出与其他模型的输出,但它们是通过风格化的模式识别来实现的,而非真正的自我建模。 📝 详细摘要 作者提出了一种“镜像窗口游戏”来测试 LLM 的自
📅 2026-03-31 06:44 (16 天前) Christopher Ackerman 人工智能 2 分鐘 ★ 88
LLM 自我意识 AI 评估 模型能力
比较 AI 编程助手的实用工作流
📌 一句话摘要 提出了一种评估 AI 编程工具的实用方法:通过让它们在为期一周的时间里互相审查彼此的代码来进行对比。 📝 详细摘要 作者推荐了一种评估 AI 编程助手的实战方法:同时使用两款工具一周,并让它们互相审查彼此的代码。这种方法利用模型自身的能力来评估其表现,作者指出,在这种工作流中,C
📅 2026-03-30 05:54 (17 天前) Peter Steinberger 🦞 人工智能 1 分鐘 ★ 80
AI 编程 Claude 开发者工作流 AI 评估
ARC-AGI-3:科学推理的微观模型
📌 一句话摘要 François Chollet 认为,如果 AI 无法掌握 ARC-AGI-3 所需的简化科学方法,那么它尚不具备解决治愈癌症等复杂现实世界问题的能力。 📝 详细摘要 Chollet 利用 ARC-AGI-3 环境批判了当前 AI 的能力现状。他提出,在受控且易于访问的环境中进
📅 2026-03-27 08:47 (19 天前) François Chollet 人工智能 1 分鐘 ★ 88
ARC-AGI AI 推理 AGI 科学方法
严格 AI 评估的重要性
📌 一句话摘要 François Chollet 强调,真正关心 AGI 进展的人,应该重视那些能指出研究差距的评估方法,而不是一味寻求对自己既有偏见的确认。 📝 详细摘要 这条推文是对 AI 研究社区的元评论。Chollet 指出,如果一个人真心致力于 AGI 的发展,就应该优先考虑像 ARC
📅 2026-03-27 08:49 (19 天前) François Chollet 人工智能 1 分鐘 ★ 83
AGI AI 评估 研究方法论 基准测试
如何评估实际软件产品中的 AI 能力声明?—— LessWrong
📌 一句话摘要 作者探讨了建立标准化评估基础设施以验证企业软件中 AI 能力声明的必要性,并寻求社区反馈,以确定“评估”(evals)是否是投资者和采购团队的正确解决方案。 📝 详细摘要 本文指出了当前 AI 软件市场的一个关键缺口:投资者和采购团队无法验证供应商关于 AI 性能的声明。作者在私
📅 2026-03-26 09:12 (20 天前) Dhruv Gulati 人工智能 1 分鐘 ★ 82
AI 评估 企业 AI 尽职调查 LLM 基准测试
ARC-AGI-3 基准测试发布
📌 一句话摘要 François Chollet 宣布发布 ARC-AGI-3,这是一个旨在通过交互式推理环境评估代理智能的新基准测试。 📝 详细摘要 该推文宣布了 ARC-AGI-3 的发布,这是一个专注于评估代理智能的基准测试。它强调了当前的前沿模型在这些环境中的表现不佳,得分低于 1%,而
📅 2026-03-26 01:42 (21 天前) François Chollet 人工智能 3 分鐘 ★ 89
ARC-AGI AGI 基准测试 AI 评估
ARC-AGI-3 评分方法
📌 一句话摘要 解释了 ARC-AGI-3 评分系统,该系统使用人类操作效率作为评估 AI 智能体的基准。 📝 详细摘要 该推文阐明了 ARC-AGI-3 背后的方法论,解释了得分是基于 AI 智能体与 10 人中第 2 名最佳人类测试者的操作效率的接近程度,提供了一种正式的技能获取衡量标准。
📅 2026-03-26 02:10 (21 天前) François Chollet 人工智能 1 分鐘 ★ 85
ARC-AGI 方法论 AI 评估 人类基准
关于 Composer 2 评估与模型基准测试的洞察
📌 一句话摘要 Lee Robinson 探讨了 Composer 2 评估的细微之处,强调基准测试并不完美,而现实中的“主观体验测试”和内部试用对于模型改进至关重要。 📝 详细摘要 Lee Robinson 分享了关于 Composer 2 模型评估的见解,指出虽然基准测试提供了基准参考,但无
📅 2026-03-23 02:24 (24 天前) Lee Robinson 人工智能 2 分鐘 ★ 86
Composer2 AI 评估 LLM Cursor
急需 AGI 新基准:聚焦学习、元认知、注意力、执行功能与社会认知
📌 一句话摘要 这则后续推文阐述了为何需要新的严格 AGI 评测基准,并重点提及了学习、元认知、注意力、执行功能和社会认知等维度,同时提供了竞赛链接。 📝 详细摘要 作为竞赛公告的后续,这则推文详细阐述了为何需要新的 AGI 评测基准。它指出,现有基准正被当前的 AI 模型所“饱和”,因此亟需更
📅 2026-03-18 02:46 (29 天前) Logan Kilpatrick 人工智能 2 分鐘 ★ 85
AGI 评测基准 认知 AI AI 评估 元认知
某些模型无法识别其官方名称
📌 一句话摘要 一项针对 102 个 LLM 的实证研究显示,超过三分之一的模型错误识别了自己的名称或创建者,这可能由训练数据原型和模型蒸馏驱动。 📝 详细摘要 本文对 102 个大型语言模型进行了系统性调查,以探究“身份混淆”现象——即模型声称自己是另一个 LLM(例如,DeepSeek 声称
📅 2026-03-15 19:02 (03-15 19:02) jordine 人工智能 6 分鐘 ★ 84
LLM 模型身份 模型蒸馏 AI 评估