SuperPortia Reading
總覽
文章
簡報
🔍 搜尋
全部
未讀 (12207)
★ 收藏 (0)
🤖 人工智能 (7774)
📊 商业科技 (1914)
💻 软件编程 (1214)
📁 个人成长 (761)
🎨 产品设计 (214)
📁 生活文化 (130)
📁 媒体资讯 (80)
📁 投资财经 (76)
📁 AI 产品 (39)
📁 AI (5)
篩選中:
🏷️ LLM-as-a-Judge
共 3 篇
✕ 清除篩選
12209
全部文章
12207
未讀
79
今日新增
0
收藏
📡 Poller
最後抓取:
1 小時前
(04-18 16:01)
BestBlogs 精選 (12188)
🏷️ 熱門標籤
AI Agent
1367
AI 智能体
737
Claude Code
655
Anthropic
647
LLM
564
AI 编程
534
OpenClaw
501
开源
444
AI 安全
408
Claude
400
AI
398
OpenAI
371
软件工程
359
开发者工具
348
生产力
308
GitHub
254
自动化
241
AI 基础设施
229
AI 开发
226
MCP
225
●
ICLR 2026 | 大模型当裁判也「翻车」?北大清华联合多校提出 TrustJudge,让 LLM 评估更值得信赖
📌 一句话摘要 北大清华等高校提出 TrustJudge 框架,通过利用 LLM 内部概率分布和似然感知聚合,显著降低了「大模型作为裁判」时的评分不一致性和传递性矛盾。 📝 详细摘要 本文介绍了由北京大学、清华大学等机构联合提出的 TrustJudge 评估框架,旨在解决大模型作为裁判(LLM-
📅 2026-03-31 13:36
(18 天前)
机器之心
人工智能
1 分鐘
★ 91
LLM-as-a-Judge
TrustJudge
模型评估
强化学习
●
AI 智能体实践评估:基准、框架与经验总结
📌 一句话摘要 本文系统介绍了 AI 智能体从原型到生产环境的评估框架,提出了五大核心评估支柱,并提供了基于 Claude 和 LangChain 的自动化评估实践示例。 📝 详细摘要 文章针对 AI 智能体(Agent)在生产环境中表现不稳定的痛点,提出了一套超越传统 NLP 指标的评估体系。
📅 2026-03-23 14:31
(26 天前)
InfoQ 中文
人工智能
2 分鐘
★ 91
AI Agent
智能体评估
LLM-as-a-judge
LangChain
●
如何定义“人味儿”?——HeartBench 评测体系建设实践
📌 一句话摘要 文章系统复盘 HeartBench 从 0 到 1 的构建过程,提出了一套可迁移的 AI 拟人化评测方法论与人机协作流程。 📝 详细摘要 本文围绕「如何科学定义并评测 AI 的人味儿」展开,给出了 HeartBench 的完整设计与落地路径。内容不仅介绍了数据规模、能力维度、Ru
📅 2026-03-16 08:31
(03-16 08:31)
阿里云开发者
人工智能
1 分鐘
★ 89
HeartBench
AI 评测
拟人化能力
LLM-as-a-Judge