📡 Poller 最後抓取: 1 小時前 (06-09 02:00)
BestBlogs 精選 (21656)
🏷️ 熱門標籤
● 谷歌四大巨头齐聚:蒸馏模型的精髓是“挤柠檬”!Gemini 将用自己写的代码“改进”自己!五年后的谷歌可能只有一款产品
📅 2026-05-30 18:09 (9 天前) 51CTO技术栈 人工智能 2 分鐘 ★ 86
● Anthropic 用 99 道生物数据分析题测试 Claude,表现接近专家水平
● 哈萨比斯出的难题,GPT 之父接上了:用一个知识停在 1930 年的模型
📅 2026-04-30 12:50 (04-30 12:50) 机器之心 人工智能 2 分鐘 ★ 88
● 前 OpenAI 研究员离职文章核心观点提炼:后训练、评估、对齐与 AI 依赖风险
● Claude 最强模型 Mythos 7 个极其精彩的细节
📅 2026-04-13 11:00 (04-13 11:00) 硅星人Pro 人工智能 2 分鐘 ★ 87
● 论文重构评估
● Agentic-MME:智能体能力究竟为多模态智能带来了什么?
● Anthropic 推出用于比较 AI 模型行为的“diff”方法
● BizGenEval:商业视觉内容生成基准测试
📅 2026-04-04 00:36 (04-04 00:36) AK 人工智能 2 分鐘 ★ 80
● 微软研究院发布 ADeLe:精准预测 AI 模型性能的新框架
● ADeLe:预测并解释跨任务的 AI 性能 - 微软研究院
● LLM 的镜像测试 — LessWrong
● 比较 AI 编程助手的实用工作流
● ARC-AGI-3:科学推理的微观模型
● 严格 AI 评估的重要性
● 如何评估实际软件产品中的 AI 能力声明?—— LessWrong
● ARC-AGI-3 基准测试发布
● ARC-AGI-3 评分方法
● 关于 Composer 2 评估与模型基准测试的洞察
● 急需 AGI 新基准:聚焦学习、元认知、注意力、执行功能与社会认知