全部 未讀 (11757) ★ 收藏 (0) 🤖 人工智能 (7554) 📊 商业科技 (1778) 💻 软件编程 (1192) 📁 个人成长 (734) 🎨 产品设计 (207) 📁 生活文化 (108) 📁 投资财经 (71) 📁 媒体资讯 (69) 📁 AI 产品 (39) 📁 AI (5)
篩選中: 🏷️ LLM-as-a-judge 共 3 篇 ✕ 清除篩選
11759
全部文章
11757
未讀
76
今日新增
0
收藏
📡 Poller 最後抓取: 1 小時前 (04-16 10:00)
BestBlogs 精選 (11740)

🏷️ 熱門標籤

AI Agent 1314 AI 智能体 732 Claude Code 641 Anthropic 620 LLM 563 OpenClaw 497 AI 编程 492 开源 438 AI 396 AI 安全 394 Claude 380 OpenAI 360 软件工程 353 开发者工具 340 生产力 308 GitHub 248 自动化 238 AI 基础设施 227 AI 开发 224 MCP 223
ICLR 2026 | 大模型当裁判也「翻车」?北大清华联合多校提出 TrustJudge,让 LLM 评估更值得信赖
📌 一句话摘要 北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。 📝 详细摘要 本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-
📅 2026-03-31 13:36 (15 天前) 机器之心 人工智能 1 分鐘 ★ 91
LLM-as-a-Judge TrustJudge 模型评估 强化学习
AI 智能体实践评估:基准、框架与经验总结
📌 一句话摘要 本文系统介绍了 AI 智能体从原型到生产环境的评估框架,提出了五大核心评估支柱,并提供了基于 Claude 和 LangChain 的自动化评估实践示例。 📝 详细摘要 文章针对 AI 智能体(Agent)在生产环境中表现不稳定的痛点,提出了一套超越传统 NLP 指标的评估体系。
📅 2026-03-23 14:31 (23 天前) InfoQ 中文 人工智能 2 分鐘 ★ 91
AI Agent 智能体评估 LLM-as-a-judge LangChain
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31 (03-16 08:31) 阿里云开发者 人工智能 1 分鐘 ★ 89
HeartBench AI 评测 拟人化能力 LLM-as-a-Judge