📡 Poller 最後抓取: 1 小時前 (03-13 04:00)
BestBlogs 精選 (803)
🏷️ 熱門標籤
● Cursor 推出智能体编程模型新评分方法
● Cursor 衡量模型质量的混合方法
● GPT-5.4-high 跻身 LMArena 基准测试 Code Arena 前六
📅 2026-03-13 00:07 (4 小時前) Arena.ai 人工智能 1 分鐘 ★ 88
● OpenRouter 将推出公开的模型准确性和基准测试仪表盘
📅 2026-03-13 00:11 (4 小時前) OpenRouter 人工智能 1 分鐘 ★ 81
● 英伟达发布 Nemotron 3 Super 120B-A12B 开放权重 LLM
📅 2026-03-12 21:22 (7 小時前) Sebastian Raschka 人工智能 1 分鐘 ★ 83
● AI #159: 法庭见 — LessWrong
● Claude Opus 4.6 推出自适应推理与上下文压缩功能,助力长时运行智能体
📅 2026-03-12 18:01 (11 小時前) Steef-Jan Wiggers 人工智能 6 分鐘 ★ 78
● OpenAI GPT-5.4 vs. GPT-5.4-High:Arena Expert 基准测试深度对比
● OpenAI GPT-5.4 首次亮相 LMSYS 排行榜
● NVIDIA Nemotron 3 Super 在 Expert Arena 排名第 37 位
📅 2026-03-12 00:07 (1 天前) Arena.ai 人工智能 3 分鐘 ★ 82
● 基础设施噪声对智能体编程评估的影响
● 斯坦福大学研究:主流 AI 模型普遍存在系统性谄媚行为
● Google Sheets 中的 Gemini 在 SpreadsheetBench 上达到 SOTA 水平
📅 2026-03-10 13:08 (2 天前) Google AI 人工智能 3 分鐘 ★ 86