全部 未讀 (12207) ★ 收藏 (0) 🤖 人工智能 (7774) 📊 商业科技 (1914) 💻 软件编程 (1214) 📁 个人成长 (761) 🎨 产品设计 (214) 📁 生活文化 (130) 📁 媒体资讯 (80) 📁 投资财经 (76) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ LLM-as-a-Judge 共 3 篇 ✕ 清除篩選
12209
全部文章
12207
未讀
79
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-18 16:01)
BestBlogs 精選 (12188)

🏷️ 熱門標籤

AI Agent 1367 AI 智能体 737 Claude Code 655 Anthropic 647 LLM 564 AI 编程 534 OpenClaw 501 开源 444 AI 安全 408 Claude 400 AI 398 OpenAI 371 软件工程 359 开发者工具 348 生产力 308 GitHub 254 自动化 241 AI 基础设施 229 AI 开发 226 MCP 225
ICLR 2026 | 大模型当裁判也「翻车」?北大清华联合多校提出 TrustJudge,让 LLM 评估更值得信赖
📌 一句话摘要 北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。 📝 详细摘要 本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-
📅 2026-03-31 13:36 (18 天前) 机器之心 人工智能 1 分鐘 ★ 91
LLM-as-a-Judge TrustJudge 模型评估 强化学习
AI 智能体实践评估:基准、框架与经验总结
📌 一句话摘要 本文系统介绍了 AI 智能体从原型到生产环境的评估框架,提出了五大核心评估支柱,并提供了基于 Claude 和 LangChain 的自动化评估实践示例。 📝 详细摘要 文章针对 AI 智能体(Agent)在生产环境中表现不稳定的痛点,提出了一套超越传统 NLP 指标的评估体系。
📅 2026-03-23 14:31 (26 天前) InfoQ 中文 人工智能 2 分鐘 ★ 91
AI Agent 智能体评估 LLM-as-a-judge LangChain
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31 (03-16 08:31) 阿里云开发者 人工智能 1 分鐘 ★ 89
HeartBench AI 评测 拟人化能力 LLM-as-a-Judge