← 回總覽

Bits-over-Random 指标如何改变了我对 RAG 和智能体的看法

📅 2026-03-26 18:31 Sean Moran 人工智能 2 分鐘 1326 字 評分: 88
Bits-over-Random RAG AI 智能体 信息检索 上下文工程
📌 一句话摘要 本文探讨了 Bits-over-Random (BoR) 指标如何通过优先考虑选择性而非单纯的覆盖率来重新定义 RAG 和智能体的检索评估,从而防止上下文污染。 📝 详细摘要 作为一名信息检索专家,作者认为 Success@K 和 Recall 等传统指标对于基于 LLM 的系统来说是不够的,因为它们没有考虑到“上下文污染”。与人类不同,LLM 难以忽略提示词中的无关信息,这意味着“暴力”检索(即为了确保成功而填满上下文窗口)往往会降低推理质量。本文引入了 Bits-over-Random (BoR) 作为衡量检索相对于随机概率的选择性的关键指标。这对于面临“小工具悖论”的

📌 一句话摘要

本文探讨了 Bits-over-Random (BoR) 指标如何通过优先考虑选择性而非单纯的覆盖率来重新定义 RAG 和智能体的检索评估,从而防止上下文污染。

📝 详细摘要

作为一名信息检索专家,作者认为 Success@K 和 Recall 等传统指标对于基于 LLM 的系统来说是不够的,因为它们没有考虑到“上下文污染”。与人类不同,LLM 难以忽略提示词中的无关信息,这意味着“暴力”检索(即为了确保成功而填满上下文窗口)往往会降低推理质量。本文引入了 Bits-over-Random (BoR) 作为衡量检索相对于随机概率的选择性的关键指标。这对于面临“小工具悖论”的 AI 智能体尤为重要,在这种悖论中,提供过多的工具选项虽然提高了召回率,但由于描述重叠和噪声,反而导致决策失败。作者主张转向“上下文工程”,强调分阶段检索、领域路由和压缩摘要,以保持纯净的推理预算。

💡 主要观点

- 与人类搜索者相比,LLM 极易受到上下文污染的影响。 虽然人类可以轻松过滤搜索结果中的垃圾信息,但 LLM 会将整个检索到的内容包作为工作记忆进行处理,这意味着无关的噪声会主动稀释它们的注意力和推理能力。

Bits-over-Random (BoR) 指标衡量的是真正的选择性与暴力包含之间的区别。 BoR 量化了检索系统是真正“擅长”查找相关项目,还是仅仅因为检索深度 (K) 过大而导致随机概率也能成功。
“小工具悖论”解释了为什么工具越多反而可能导致智能体失效。 在智能体系统中,增加候选工具的数量通常会提高工具召回率,但会降低端到端的任务准确性,因为模型会被重叠的功能和模糊的区分所淹没。
检索应被视为一个推理预算分配问题。 有效的系统设计需要“上下文工程”——即精确决定什么信息、在何时、以何种形式进入提示词,以保持“上下文纯度”并最大化模型的专注度。

💬 文章金句

- 对于 LLM 系统而言,更小、更简洁通常优于更大、更全面。

  • 上下文窗口是竞争激烈的认知领地。
  • 增加候选工具可能会提高表面的覆盖率,同时降低智能体做出清晰选择的能力。
  • 最好的 LLM 系统将是那些能够在正确的时间、以支持任务所需的最小且干净的数据包形式,展示正确信息的系统。
  • 现在的工作还包括避免在寻找针的同时,把半个草堆也拖进提示词中。

📊 文章信息

AI 评分:88

来源:Towards Data Science

作者:Sean Moran

分类:人工智能

语言:英文

阅读时间:15 分钟

字数:3685

标签: Bits-over-Random, RAG, AI 智能体, 信息检索, 上下文工程

阅读完整文章

查看原文 → 發佈: 2026-03-26 18:31:00 收錄: 2026-03-26 20:00:22

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。