📡 Poller 最後抓取: 10 分鐘前 (04-16 08:00)
BestBlogs 精選 (11725)
🏷️ 熱門標籤
● Claude 最强模型 Mythos 7 个极其精彩的细节
📅 2026-04-13 11:00 (2 天前) 硅星人Pro 人工智能 2 分鐘 ★ 87
● 论文重构评估
● Agentic-MME:智能体能力究竟为多模态智能带来了什么?
● Anthropic 推出用于比较 AI 模型行为的“diff”方法
● BizGenEval:商业视觉内容生成基准测试
📅 2026-04-04 00:36 (12 天前) AK 人工智能 2 分鐘 ★ 80
● 微软研究院发布 ADeLe:精准预测 AI 模型性能的新框架
● ADeLe:预测并解释跨任务的 AI 性能 - 微软研究院
● LLM 的镜像测试 — LessWrong
● 比较 AI 编程助手的实用工作流
● ARC-AGI-3:科学推理的微观模型
● 严格 AI 评估的重要性
● 如何评估实际软件产品中的 AI 能力声明?—— LessWrong
● ARC-AGI-3 基准测试发布
● ARC-AGI-3 评分方法
● 关于 Composer 2 评估与模型基准测试的洞察
● 急需 AGI 新基准:聚焦学习、元认知、注意力、执行功能与社会认知
● 某些模型无法识别其官方名称