AI 隐藏“思维链”，是怕被人类监督污染！OpenAI 首席科学家最新访谈：驾驭工程会越来越通用

📌 一句话摘要

本文编译了 OpenAI 首席科学家 Jakub Pachocki 的深度访谈，探讨了从编程智能体爆发、研究北极星转向真实世界、AI 对齐与思维链监控，到自动化组织带来的社会权力集中等前沿议题。

📝 详细摘要

文章编译自 OpenAI 首席科学家 Jakub Pachocki 接受《Unsupervised Learning》播客的访谈内容。访谈深入探讨了多个核心议题：编程智能体（如 Codex）已在 OpenAI 内部承担大量真实编码工作，标志着“研究实习生级能力”的逼近；公司的研究“北极星”正从数学、物理 benchmark 转向“在真实世界真正有用”；AI 的长期发展方向是主动适应人类现有工作流与界面，而非要求人类适应 AI。文章重点讨论了 AI 对齐的挑战，特别是“思维链监控”作为理解模型内部机制的关键窗口，以及为何 OpenAI 选择隐藏思维链以避免其被人类偏好“污染”。最后，访谈触及了最深刻的社会问题：当高度自动化的研究实验室或公司仅由少数人控制时，可能导致的权力与财富空前集中，以及社会尚未准备好应对这一挑战。

💡 主要观点

- AI 研究的“北极星”正从可测的学术 benchmark 转向真实世界的实用性。 OpenAI 早期用数学、物理题作为衡量模型智能的清晰标尺，但随着模型能解 IMO 级问题甚至涉足研究数学，评估重点转向模型能否对 AI 研究、经济任务及其他科学领域产生实质性影响。

隐藏“思维链”是保护理解 AI 内部动机的关键窗口，避免被人类监督污染。 思维链（Chain-of-Thought）未被直接优化，可能更真实反映模型的推理过程，是重要的可解释性工具。一旦在产品中公开并加以训练（使其“更得体”），这个观察窗口就会被破坏，不利于长期对齐研究。

AI 的默认发展方向应是无缝融入人类现有工作流，而非创造独立新界面。 长期来看，AI 应该适应人类已经在使用的工具和环境（如 Slack、代码库），在其上下文里学习和工作。通用性驾驭工程（harness）将越来越强，降低各领域重造轮子的必要性。

高度自动化的组织可能引发前所未有的权力集中，这是亟待关注的社会问题。 当少数人就能控制一个能自动化完成大量智力劳动（包括研究本身）的超级组织时，财富和权力的集中速度将超乎想象，而社会目前对此没有显而易见的解决方案。

💬 文章金句

- 真正麻烦的，不只是 AI 变强，而是‘只有几个人控制的超自动化组织’从接管真实代码，到重塑社会财富分配。

我们突然意识到，这可能正好提供了一个非常强的解释窗口……思维链最大的优势是：它默认就是英语。概念越复杂，这个优势越明显。
如果你在产品里公开展示它，迟早就得去训练它……一旦这样，那个窗口就被污染了。
更长期的对齐问题，本质上是泛化问题……模型最终会回落到什么价值上？
未来这些强大到惊人的组织到底该怎么治理？这些组织可能只由几个人构成，却拥有巨大的行动能力。

📊 文章信息

AI 初评：84

来源：AI科技大本营

作者： AI科技大本营

分类：人工智能

语言：中文

阅读时间：46 分钟

字数：11278

标签： OpenAI, Jakub Pachocki, AI 对齐, 思维链, 编程智能体

阅读完整文章

AI 隐藏“思维链”，是怕被人类监督污染！OpenAI 首席科学家最新访谈：驾驭工程会越来越通用

🤖 問 AI