全部 未讀 (21671) ★ 收藏 (0) 🤖 人工智能 (11190) 📊 商业科技 (4470) 💻 软件编程 (1687) 📁 个人成长 (1607) 📁 生活文化 (864) 📁 媒体资讯 (833) 📁 投资财经 (536) 🎨 产品设计 (409) 📁 AI 产品 (39) 📁 体育运动 (28)
篩選中: 🏷️ LLM-as-a-Judge 共 4 篇 ✕ 清除篩選
21673
全部文章
21671
未讀
35
今日新增
0
收藏
📡 Poller 最後抓取: 36 分鐘前 (06-09 00:00)
BestBlogs 精選 (21638)

🏷️ 熱門標籤

AI Agent 2168 AI 编程 991 Anthropic 981 Claude Code 917 AI 智能体 780 OpenAI 745 LLM 684 开源 574 OpenClaw 557 Claude 557 AI 517 AI 安全 490 开发者工具 432 Codex 416 软件工程 399 具身智能 338 Agent 334 个人成长 334 GitHub 321 生产力 315
面向智能导购的 Agent 评测实践
📌 一句话摘要 本文提出一套面向家居导购 Agent 的自动化评估链路,基于结构化多维度 Benchmark 和 LLM-as-a-judge 实现 91.9% 准确率的自动评分,并量化对比发现 gpt51 最优,较线上模型 qwen3-vl 提升 16.4%。 📝 详细摘要 本文来自大淘宝技术
📅 2026-05-15 16:56 (24 天前) 大淘宝技术 人工智能 2 分鐘 ★ 90
Agent 评测 LLM-as-a-Judge 智能导购 多模态
ICLR 2026 | 大模型当裁判也「翻车」?北大清华联合多校提出 TrustJudge,让 LLM 评估更值得信赖
📌 一句话摘要 北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。 📝 详细摘要 本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-
📅 2026-03-31 13:36 (03-31 13:36) 机器之心 人工智能 1 分鐘 ★ 91
LLM-as-a-Judge TrustJudge 模型评估 强化学习
AI 智能体实践评估:基准、框架与经验总结
📌 一句话摘要 本文系统介绍了 AI 智能体从原型到生产环境的评估框架,提出了五大核心评估支柱,并提供了基于 Claude 和 LangChain 的自动化评估实践示例。 📝 详细摘要 文章针对 AI 智能体(Agent)在生产环境中表现不稳定的痛点,提出了一套超越传统 NLP 指标的评估体系。
📅 2026-03-23 14:31 (03-23 14:31) InfoQ 中文 人工智能 2 分鐘 ★ 91
AI Agent 智能体评估 LLM-as-a-judge LangChain
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31 (03-16 08:31) 阿里云开发者 人工智能 1 分鐘 ★ 89
HeartBench AI 评测 拟人化能力 LLM-as-a-Judge