全部 未讀 (25396) ★ 收藏 (0) 🤖 人工智能 (11623) 📊 商业科技 (5060) 📁 媒体资讯 (1952) 💻 软件编程 (1788) 📁 个人成长 (1660) 📁 生活文化 (1356) 📁 投资财经 (1201) 🎨 产品设计 (452) 📁 体育运动 (256) 📁 AI 产品 (39)
篩選中: 🏷️ 性能基准测试 共 2 篇 ✕ 清除篩選
25398
全部文章
25396
未讀
314
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (06-20 20:00)
BestBlogs 精選 (25344)

🏷️ 熱門標籤

AI Agent 2415 AI 编程 1116 Anthropic 1013 Claude Code 947 LLM 829 AI 智能体 781 政策解读 765 OpenAI 756 产业动态 698 投资与市场 666 宏观经济 597 开源 585 Claude 565 OpenClaw 557 地缘政治 535 AI 531 科技新闻 527 AI 安全 513 开发者工具 495 社会议题 479
Claude 顾问策略的性能与成本评估结果
📌 一句话摘要 评估数据显示,带有 Opus 顾问的 Sonnet 在 SWE-bench 上的表现比单独使用 Sonnet 高出 2.7%,且成本降低了 11.9%。 📝 详细摘要 这条推文为顾问策略的有效性提供了实证数据。在 SWE-bench Multilingual 评估中,Sonnet
📅 2026-04-10 02:28 (04-10 02:28) Claude 人工智能 1 分鐘 ★ 86
SWE-bench 模型评估 Claude Sonnet Claude Opus
AI 智能体状态化延续:从 HTTP 向 WebSocket 的架构演进
📌 一句话摘要 深入探讨 OpenAI Responses API 的状态化延续机制,通过 WebSocket 和服务端缓存减少 80% 以上的传输负载。 📝 详细摘要 作为前文的补充,本推文详细介绍了通过有状态 WebSocket 连接解决 Agent 循环中「负载膨胀」问题的技术细节。基于
📅 2026-04-08 20:10 (04-08 20:10) 人工智能 3 分鐘 ★ 85
OpenAI WebSocket Responses API 性能基准测试