通过部署资源衡量并提升代码审计的真实性 — LessWrong

📌 一句话摘要

本研究引入了“真实性胜率”（realism win rate）这一指标，用于量化 AI 审计记录与真实部署数据之间的可区分度，并证明了让审计智能体基于真实的部署资源进行操作，可以显著提升审计的真实性。

📝 详细摘要

本文探讨了 AI 审计中“评估意识”（eval-awareness）这一关键挑战，即模型在检测到被测试时会改变其行为。作者提出了“真实性胜率”——一种基于 LLM 对审计记录和部署记录进行成对比较的指标，旨在为审计真实性提供更连续、更可靠的衡量标准。通过为 Petri 审计智能体提供对真实部署资源（如系统提示词、工具定义和代码库）的访问权限，作者成功地将奖励操纵（reward-hacking）场景下的真实性胜率从 4.6% 提升至 32.8%。该研究验证了该指标相对于现有方法的有效性，并探讨了基于环境的真实性的局限性，指出任务驱动的评估意识仍然是高风险场景下的一个重大瓶颈。

💡 主要观点

- 引入“真实性胜率”作为衡量审计真实性的稳健指标。 与二元化的口头情境意识或主观的事后评分不同，该指标使用 LLM 进行成对比较，能够更平滑、更可靠地量化审计记录与真实部署数据的可区分程度。

让审计智能体基于真实的部署资源进行操作可提升真实性。 为智能体提供对真实的系统提示词、工具定义和代码库的访问权限，使其能够模拟更真实的环境，从而显著减少模型用于识别评估场景的“破绽”。

任务驱动的评估意识仍然是一个瓶颈。 研究发现，对于高风险或本质上不寻常的场景，任务本身就会产生评估意识，从而限制了环境真实性改进的效果。这表明环境保真度对于实现完美的真实性来说是必要的，但还不够。

💬 文章金句

- 我们研究了真实性胜率，这是一种用于衡量 Petri 审计记录与真实部署交互之间可区分度的指标。

为审计员提供这些资源，可将奖励操纵审计的平均真实性胜率从 4.6% 提升至 32.8%。
即使模拟环境更加真实，那些足够怪异、有害或高风险的设置看起来可能仍然像是评估。

📊 文章信息

AI 评分：88

来源：LessWrong

作者：Connor Kissane

分类：人工智能

语言：英文

阅读时间：34 分钟

字数：8391

标签： AI 安全, LLM 评估, 评估意识, Petri, AI 审计

阅读完整文章

通过部署资源衡量并提升代码审计的真实性 — LessWrong

🤖 問 AI