SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (11757)
★ 收藏 (0)
🤖 人工智能 (7554)
📊 商业科技 (1778)
💻 软件编程 (1192)
📁 个人成长 (734)
🎨 产品设计 (207)
📁 生活文化 (108)
📁 投资财经 (71)
📁 媒体资讯 (69)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ LLM-as-a-judge
共 3 篇
✕ 清除篩選
11759
全部文章
11757
未讀
76
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(04-16 10:00)
BestBlogs 精選 (11740)
🏷️ 熱門標籤
AI Agent
1314
AI 智能体
732
Claude Code
641
Anthropic
620
LLM
563
OpenClaw
497
AI 编程
492
开源
438
AI
396
AI 安全
394
Claude
380
OpenAI
360
软件工程
353
开发者工具
340
生产力
308
GitHub
248
自动化
238
AI 基础设施
227
AI 开发
224
MCP
223
●
ICLR 2026 | 大模型当裁判也「翻车」?北大清华联合多校提出 TrustJudge,让 LLM 评估更值得信赖
📌 一句话摘要 北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。 📝 详细摘要 本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-
📅 2026-03-31 13:36
(15 天前)
机器之心
人工智能
1 分鐘
★ 91
LLM-as-a-Judge
TrustJudge
模型评估
强化学习
●
AI 智能体实践评估:基准、框架与经验总结
📌 一句话摘要 本文系统介绍了 AI 智能体从原型到生产环境的评估框架,提出了五大核心评估支柱,并提供了基于 Claude 和 LangChain 的自动化评估实践示例。 📝 详细摘要 文章针对 AI 智能体(Agent)在生产环境中表现不稳定的痛点,提出了一套超越传统 NLP 指标的评估体系。
📅 2026-03-23 14:31
(23 天前)
InfoQ 中文
人工智能
2 分鐘
★ 91
AI Agent
智能体评估
LLM-as-a-judge
LangChain
●
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31
(03-16 08:31)
阿里云开发者
人工智能
1 分鐘
★ 89
HeartBench
AI 评测
拟人化能力
LLM-as-a-Judge