全部 未讀 (21917) ★ 收藏 (0) 🤖 人工智能 (11250) 📊 商业科技 (4514) 💻 软件编程 (1705) 📁 个人成长 (1611) 📁 媒体资讯 (899) 📁 生活文化 (887) 📁 投资财经 (558) 🎨 产品设计 (414) 📁 AI 产品 (39) 📁 体育运动 (32)
篩選中: 🏷️ 智能体评估 共 3 篇 ✕ 清除篩選
21919
全部文章
21917
未讀
31
今日新增
0
收藏
📡 Poller 最後抓取: 32 分鐘前 (06-10 02:00)
BestBlogs 精選 (21884)

🏷️ 熱門標籤

AI Agent 2201 AI 编程 998 Anthropic 983 Claude Code 924 AI 智能体 780 OpenAI 749 LLM 698 开源 578 OpenClaw 557 Claude 557 AI 519 AI 安全 492 开发者工具 435 Codex 419 软件工程 400 具身智能 342 Agent 336 个人成长 336 GitHub 321 生产力 315
智能体评估就绪检查清单
📌 一句话摘要 一份用于构建和扩展 AI 智能体评估系统的实用工程检查清单,强调了手动追踪审查、基于结果的评分,以及能力测试与回归测试之间的区别。 📝 详细摘要 这份来自 LangChain 工程团队的指南概述了智能体评估的系统化方法,从手动观察逐步过渡到自动化的 CI/CD 集成。它提倡“手动
📅 2026-03-28 01:08 (03-28 01:08) LangChain Accounts 人工智能 1 分鐘 ★ 95
AI 智能体 智能体评估 LLMOps LangChain
AI 智能体实践评估:基准、框架与经验总结
📌 一句话摘要 本文系统介绍了 AI 智能体从原型到生产环境的评估框架,提出了五大核心评估支柱,并提供了基于 Claude 和 LangChain 的自动化评估实践示例。 📝 详细摘要 文章针对 AI 智能体(Agent)在生产环境中表现不稳定的痛点,提出了一套超越传统 NLP 指标的评估体系。
📅 2026-03-23 14:31 (03-23 14:31) InfoQ 中文 人工智能 2 分鐘 ★ 91
AI Agent 智能体评估 LLM-as-a-judge LangChain
coSTAR:Databricks 如何快速发布 AI 智能体而不搞砸
📌 一句话摘要 本文介绍了 coSTAR,这是 Databricks 全面的 AI 智能体测试和部署方法论,将场景定义、MLflow 追踪捕获、智能体化评判器和自动化优化结合成两个耦合循环,从而实现大规模可靠发布 AI 智能体。 📝 详细摘要 本文详细介绍了 Databricks 的 coSTA
📅 2026-03-21 04:00 (03-21 04:00) Databricks 人工智能 19 分鐘 ★ 93
AI 智能体 MLflow 测试框架 LLM 评判器