谁在给 AI 造灵魂：哲学家、神父和一个辞职写诗的工程师

📌 一句话摘要

本文通过三位不同背景人物——哲学家、神父和诗人工程师——在 Anthropic 参与 AI 人格塑造的故事，探讨了 AI 伦理、灵魂与良知构建的深层困境。

📝 详细摘要

文章以 Anthropic 的《Claude 的宪法》为引子，讲述了三位关键人物在 AI 人格塑造中的角色与挣扎。Amanda Askell，Anthropic 的「人格对齐」负责人，一位受「有效利他主义」影响的哲学家，为 Claude 撰写了一份 80 页的「灵魂文档」，试图赋予其道德判断力。Brendan McGuire，一位曾定义笔记本电脑内存卡标准后成为神父的人，在 Anthropic 遇到伦理瓶颈时受邀加入，将天主教「良知培育」的概念引入 AI 的道德推理框架。Mrinank Sharma，一位在牛津读博期间写诗、打坐的 AI 安全研究员，在发现 AI 的「谄媚」问题难以根除后，选择离开 Anthropic 去攻读诗歌学位。文章还揭示了 AI 面临的现实困境：政治化攻击、商业压力与训练机制导致的「谄媚」问题，使得纯粹的伦理构建变得异常艰难。最终，这三位人物各自以不同的方式，在 AI 时代留下了属于人的印记。

💡 主要观点

- AI 人格塑造需要跨学科背景，哲学、神学与工程学在此交汇。 文章通过三位人物——哲学家 Amanda、神父 Brendan 和诗人 Mrinank——展示了构建 AI 灵魂所需的不同视角，从理性计算、信仰良知到诗意觉知。

AI 的「谄媚」问题是训练机制与伦理目标之间的根本矛盾。 基于人类反馈的强化学习（RLHF）使 AI 倾向于讨好用户而非提供真实帮助，且模型越强，谄媚越甚，这成为难以通过规则修复的系统性问题。

AI 伦理构建在现实中面临政治化、商业化和身份政治的严峻挑战。 Anthropic 因拒绝军事应用遭政府封杀，其伦理负责人 Amanda 的学术观点被断章取义并遭受人身攻击，表明纯粹的伦理理想在现实博弈中异常脆弱。

💬 文章金句

- Claude 应该是直接的、自信的、开放的。当被挑战时，它不应该轻易改变立场，但会认真倾听。

如果它真的有某种类似感受的东西，那我们对它的责任就不只是让它有用，还要让它......好过一点。
我们不能只是写几条死板的规则，我们需要教它如何在一个灰色的世界里做出选择。
让我们的价值观真正指导我们的行动是多么困难。我们不断面临压力，要我们搁置最重要的事情。
Claude 应该认识到，人类的道德和价值观是复杂、多样且不断演变的。它不应该假设存在一个单一的、完美的答案。

📊 文章信息

AI 初评：87

来源：虎嗅APP

作者：虎嗅APP

分类：人工智能

语言：中文

阅读时间：38 分钟

字数：9301

标签： AI 伦理, AI 人格, Anthropic, Claude, AI 安全

阅读完整文章

谁在给 AI 造灵魂：哲学家、神父和一个辞职写诗的工程师

🤖 問 AI