Pangram（AI 检测软件）可以被规避 — LessWrong

📌 一句话摘要

本文探讨了 AI 检测工具 Pangram 的鲁棒性，证明了通过迭代提示词技术可以成功规避该工具，并指出其在处理较短文本片段时表现出不可靠性。

📝 详细摘要

作者测试了 AI 检测工具 Pangram，以确定它是否能可靠地区分人类创作和 AI 生成的文本。通过实证测试，作者发现了两个关键局限性：首先，Pangram 在处理 200 字以下的文本时检测不可靠；其次，通过使用 GPT-5.4-thinking 等先进模型配合迭代式、注重风格的提示词，可以绕过该工具。作者成功生成了被判定为“100% 人类创作”的 AI 文本，这表明当前的 AI 检测方法在对抗性提示词策略面前依然脆弱。

💡 主要观点

- Pangram 在处理短于 200 字的文本片段时，检测准确性不可靠。 实证测试显示，对于 200 字以下的文本，其置信度评分和分类结果不一致，这表明该工具需要足够的上下文长度才能有效发挥作用。

可以通过提示词引导先进的 LLM 有效规避 AI 检测工具。 通过使用迭代提示词并提供特定的风格上下文（例如柏拉图对话或特定作者的语调），作者成功欺骗了 Pangram，使其将 AI 生成的文本判定为 100% 人类创作。

💬 文章金句

- 我发现了一种相当简单的方法来生成有用的 AI 撰写文章，这些文章被 Pangram 标记为人类创作或大部分为人类创作。

因此，在这种情况下，检测似乎在至少达到约 200 字之前是不可靠的。
在这一背景下，现实世界是充满对抗性的；分享 AI 撰写文本的人通常希望别人相信这些内容是他们自己写的。

📊 文章信息

AI 评分：82

来源：LessWrong

作者：Eye You

分类：人工智能

语言：英文

阅读时间：5 分钟

字数：1056

标签： AI 检测, Pangram, 对抗性提示词, LLM 评估, AI 安全

阅读完整文章

Pangram（AI 检测软件）可以被规避 — LessWrong

🤖 問 AI