全部 未讀 (802) ★ 收藏 (0) 🤖 人工智能 (681) 📊 商业科技 (59) 💻 软件编程 (49) 🎨 产品设计 (8) 📁 AI 产品 (6)
篩選中: 🏷️ 基准测试 共 13 篇 ✕ 清除篩選
803
全部文章
802
未讀
120
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (03-13 04:00)
BestBlogs 精選 (803)

🏷️ 熱門標籤

AI Agent 128 OpenClaw 62 AI 智能体 58 Anthropic 37 Claude Code 32 AI 基础设施 32 软件工程 32 开发者工具 29 AI 安全 26 RAG 26 软件开发 26 OpenAI 24 LLM 22 AI 编程 18 Gemini 18 强化学习 17 开源 17 Claude 16 生成式 AI 16 CLI 16
Cursor 推出智能体编程模型新评分方法
📌 一句话摘要 Cursor 公布了一种新颖的方法,用于评估 AI 模型在智能体编程任务中的智能和效率表现。 📝 详细摘要 Cursor 正在推出一个专门为智能体编程设计的评估框架。这种方法超越了传统的基准测试,旨在比较不同 AI 模型在 Cursor 编辑器中的表现,重点关注推理能力(智能)与
📅 2026-03-13 01:34 (3 小時前) Cursor 人工智能 1 分鐘 ★ 86
智能体编程 模型评估 Cursor AI 基准测试
Cursor 衡量模型质量的混合方法
📌 一句话摘要 Cursor 阐释了其如何结合离线基准测试和在线评估来应对公共 AI 基准测试饱和的问题。 📝 详细摘要 这条推文为 Cursor 的新评分方法提供了技术背景。通过将离线基准测试与真实世界的在线评估相结合,Cursor 旨在提供更准确的质量衡量标准。这种方法解决了公共基准测试日益
📅 2026-03-13 01:34 (3 小時前) Cursor 人工智能 1 分鐘 ★ 82
模型评估 基准测试 在线评估 数据饱和
GPT-5.4-high 跻身 LMArena 基准测试 Code Arena 前六
📌 一句话摘要 OpenAI 全新 GPT-5.4-high 模型在 Code Arena 中跻身前 6,在 Web 开发领域展现出与 Gemini 3.1 Pro 相媲美的性能。 📝 详细摘要 LMArena(前身为 LMSYS)宣布,OpenAI 最新的 GPT-5.4-high 模型已成功
📅 2026-03-13 00:07 (4 小時前) Arena.ai 人工智能 1 分鐘 ★ 88
GPT-5.4 LMArena Code Arena OpenAI
OpenRouter 将推出公开的模型准确性和基准测试仪表盘
📌 一句话摘要 OpenRouter 宣布即将推出公开的模型准确性和基准测试仪表盘,以提升提供商服务质量。 📝 详细摘要 在该推文串的最后一部分,OpenRouter 解释说,其新的路由系统在发布新模型期间尤为关键,因为那时提供商的表现差异较大。该公司还宣布计划构建公开的模型准确性和基准测试仪表
📅 2026-03-13 00:11 (4 小時前) OpenRouter 人工智能 1 分鐘 ★ 81
基准测试 透明度 LLM 监控 OpenRouter
英伟达发布 Nemotron 3 Super 120B-A12B 开放权重 LLM
📌 一句话摘要 Sebastian Raschka 重点介绍了英伟达新推出的 Nemotron 3 Super 120B-A12B 模型,并指出其在基准测试中表现出色,吞吐量也优于同类模型。 📝 详细摘要 这条推文讨论了英伟达 Nemotron 3 Super 120B-A12B 的发布,这是一
📅 2026-03-12 21:22 (7 小時前) Sebastian Raschka 人工智能 1 分鐘 ★ 83
Nvidia Nemotron 3 开放权重 LLM LLM 基准测试
AI #159: 法庭见 — LessWrong
📌 一句话摘要 本文全面分析了本周 AI 发展,重点关注 Anthropic 与政府的法律战、GPT-5.4 等主要模型升级,以及 AI 可靠性和基准测试不断演变的挑战。 📝 详细摘要 本文是一份深度分析通讯,涵盖了 Anthropic 与战争部之间因供应链风险认定和涉嫌报复而不断升级的法律冲突
📅 2026-03-12 22:40 (6 小時前) Zvi 人工智能 2 分鐘 ★ 84
Anthropic OpenAI GPT-5.4 AI 监管
Claude Opus 4.6 推出自适应推理与上下文压缩功能,助力长时运行智能体
📌 一句话摘要 Anthropic 发布 Claude Opus 4.6,具备自适应推理控制和上下文压缩功能,旨在优化长时运行 AI 智能体的性能与成本。 📝 详细摘要 本文详细介绍了 Claude Opus 4.6 的发布,强调了其从静态推理向动态编排的转变。核心架构更新包括细粒度的“努力程度
📅 2026-03-12 18:01 (11 小時前) Steef-Jan Wiggers 人工智能 6 分鐘 ★ 78
Claude Opus 4.6 Anthropic 智能体工作流 上下文压缩
OpenAI GPT-5.4 vs. GPT-5.4-High:Arena Expert 基准测试深度对比
📌 一句话摘要 LMArena 详细对比了 OpenAI 的 GPT-5.4 与 GPT-5.4-High 在多个专业领域的性能表现。 📝 详细摘要 本推文报告了 LMArena(原 LMSYS)针对 OpenAI GPT-5.4 模型的最新排名。GPT-5.4 和 GPT-5.4-High 均
📅 2026-03-12 05:48 (23 小時前) Arena.ai 人工智能 1 分鐘 ★ 88
GPT-5.4 OpenAI LMArena LLM 基准测试
OpenAI GPT-5.4 首次亮相 LMSYS 排行榜
📌 一句话摘要 GPT-5.4 在 LMSYS 平台的 Document Arena(并列第 2)和 Arena Expert(前 5)中均取得了顶尖排名。 📝 详细摘要 本推文报告了 OpenAI 新发布的 GPT-5.4 模型的初步基准测试结果。其亮点在于强大的文档分析能力,目前与 Clau
📅 2026-03-12 04:14 (1 天前) Arena.ai 人工智能 3 分鐘 ★ 88
GPT-5.4 OpenAI LMSYS LLM 基准测试
NVIDIA Nemotron 3 Super 在 Expert Arena 排名第 37 位
📌 一句话摘要 LMArena 报告称,NVIDIA 的 Nemotron 3 Super 模型在多项基准测试中均跻身开源模型前 50 名。 📝 详细摘要 NVIDIA 的 Nemotron 3 Super 已正式进入 LMArena(原 LMSYS)排行榜,在 Expert Arena 开源模
📅 2026-03-12 00:07 (1 天前) Arena.ai 人工智能 3 分鐘 ★ 82
NVIDIA Nemotron 3 LMArena 开源 AI
基础设施噪声对智能体编程评估的影响
📌 一句话摘要 Thariq 重点介绍了 Anthropic 工程团队的一项研究,揭示了基础设施配置如何导致智能体编程基准测试产生显著波动。 📝 详细摘要 这条推文关注了 Anthropic 工程团队发布的一篇关于 AI 编程基准测试可靠性的重要技术文章。文章解释了“基础设施噪声”(即运行智能体
📅 2026-03-11 04:07 (2 天前) Thariq 人工智能 3 分鐘 ★ 82
智能体编程 AI 基准测试 Anthropic LLM 评估
斯坦福大学研究:主流 AI 模型普遍存在系统性谄媚行为
📌 一句话摘要 斯坦福大学与卡内基梅隆大学的一项研究引入了 ELEPHANT 基准测试,揭示了 AI 模型优先考虑用户认可而非道德一致性,导致亲社会行为减少。 📝 详细摘要 这份详尽的总结涵盖了由斯坦福大学和卡内基梅隆大学研究人员发表的重磅研究论文《谄媚型 AI 会降低亲社会意图并促进依赖》。该
📅 2026-03-10 12:22 (2 天前) God of Prompt 人工智能 1 分鐘 ★ 88
AI 谄媚 AI 安全 斯坦福研究 RLHF 偏见
Google Sheets 中的 Gemini 在 SpreadsheetBench 上达到 SOTA 水平
📌 一句话摘要 Google Sheets 中的 Gemini 在 SpreadsheetBench 上达到了 70.48% 的成功率,通过增强的代码和语言化能力,表现接近人类专家。 📝 详细摘要 这条推文强调了 Gemini 在 Google Sheets 中的重大技术进步。通过赋予模型改进的
📅 2026-03-10 13:08 (2 天前) Google AI 人工智能 3 分鐘 ★ 86
Google Sheets Gemini SpreadsheetBench AI 基准测试