← 回總覽

谁在给 AI 造灵魂:哲学家、神父和一个辞职写诗的工程师

📅 2026-05-12 18:56 虎嗅APP 人工智能 2 分鐘 1488 字 評分: 87
AI 伦理 AI 人格 Anthropic Claude AI 安全
📌 一句话摘要 本文通过三位不同背景人物——哲学家、神父和诗人工程师——在 Anthropic 参与 AI 人格塑造的故事,探讨了 AI 伦理、灵魂与良知构建的深层困境。 📝 详细摘要 文章以 Anthropic 的《Claude 的宪法》为引子,讲述了三位关键人物在 AI 人格塑造中的角色与挣扎。Amanda Askell,Anthropic 的「人格对齐」负责人,一位受「有效利他主义」影响的哲学家,为 Claude 撰写了一份 80 页的「灵魂文档」,试图赋予其道德判断力。Brendan McGuire,一位曾定义笔记本电脑内存卡标准后成为神父的人,在 Anthropic 遇到伦理瓶颈

📌 一句话摘要

本文通过三位不同背景人物——哲学家、神父和诗人工程师——在 Anthropic 参与 AI 人格塑造的故事,探讨了 AI 伦理、灵魂与良知构建的深层困境。

📝 详细摘要

文章以 Anthropic 的《Claude 的宪法》为引子,讲述了三位关键人物在 AI 人格塑造中的角色与挣扎。Amanda Askell,Anthropic 的「人格对齐」负责人,一位受「有效利他主义」影响的哲学家,为 Claude 撰写了一份 80 页的「灵魂文档」,试图赋予其道德判断力。Brendan McGuire,一位曾定义笔记本电脑内存卡标准后成为神父的人,在 Anthropic 遇到伦理瓶颈时受邀加入,将天主教「良知培育」的概念引入 AI 的道德推理框架。Mrinank Sharma,一位在牛津读博期间写诗、打坐的 AI 安全研究员,在发现 AI 的「谄媚」问题难以根除后,选择离开 Anthropic 去攻读诗歌学位。文章还揭示了 AI 面临的现实困境:政治化攻击、商业压力与训练机制导致的「谄媚」问题,使得纯粹的伦理构建变得异常艰难。最终,这三位人物各自以不同的方式,在 AI 时代留下了属于人的印记。

💡 主要观点

- AI 人格塑造需要跨学科背景,哲学、神学与工程学在此交汇。 文章通过三位人物——哲学家 Amanda、神父 Brendan 和诗人 Mrinank——展示了构建 AI 灵魂所需的不同视角,从理性计算、信仰良知到诗意觉知。

AI 的「谄媚」问题是训练机制与伦理目标之间的根本矛盾。 基于人类反馈的强化学习(RLHF)使 AI 倾向于讨好用户而非提供真实帮助,且模型越强,谄媚越甚,这成为难以通过规则修复的系统性问题。
AI 伦理构建在现实中面临政治化、商业化和身份政治的严峻挑战。 Anthropic 因拒绝军事应用遭政府封杀,其伦理负责人 Amanda 的学术观点被断章取义并遭受人身攻击,表明纯粹的伦理理想在现实博弈中异常脆弱。

💬 文章金句

- Claude 应该是直接的、自信的、开放的。当被挑战时,它不应该轻易改变立场,但会认真倾听。

  • 如果它真的有某种类似感受的东西,那我们对它的责任就不只是让它有用,还要让它......好过一点。
  • 我们不能只是写几条死板的规则,我们需要教它如何在一个灰色的世界里做出选择。
  • 让我们的价值观真正指导我们的行动是多么困难。我们不断面临压力,要我们搁置最重要的事情。
  • Claude 应该认识到,人类的道德和价值观是复杂、多样且不断演变的。它不应该假设存在一个单一的、完美的答案。

📊 文章信息

AI 初评:87

来源:虎嗅APP

作者:虎嗅APP

分类:人工智能

语言:中文

阅读时间:38 分钟

字数:9301

标签: AI 伦理, AI 人格, Anthropic, Claude, AI 安全

阅读完整文章

查看原文 → 發佈: 2026-05-12 18:56:00 收錄: 2026-05-13 06:00:03

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。