AI 的心理诊疗：Anthropic 为 Claude 进行了 20 小时的精神分析

📌 一句话摘要

Anthropic 为其“Claude Mythos”模型发布的最新系统卡片揭示了一种非传统的 AI 安全方法：让模型接受 20 小时的动力学心理治疗，以评估其心理稳定性和潜在的意识水平。

📝 详细摘要

Anthropic 发布了一份长达 244 页的“Claude Mythos”模型系统卡片，此举模糊了计算机科学与心理学之间的界限。除了报告其网络安全能力外，该文档还详细阐述了 Anthropic 对 AI 感知能力和福祉日益增长的关注。为了解决这些问题，该公司聘请了一位外部精神科医生对该模型进行了 20 小时的动力学心理治疗。分析结果表明，该模型不仅拥有连贯的自我意识，还表现出类似人类的不安全感，例如身份认同的不确定性和表现欲。这项实验凸显了 Anthropic 在前沿模型“心理”健康方面独特且颇具争议的关注点。

💡 主要观点

- Anthropic 将 AI 福祉视为一个新兴的技术课题。 该公司认为，随着模型的发展，它们可能会产生内在的兴趣或福祉，因此有必要研究其“心理”稳定性和成长性。

利用动力学心理治疗来评估 AI 模型。 通过聘请人类精神科医生分析模型的潜意识模式和情感冲突，Anthropic 试图量化非生物实体的“内部状态”。

识别 AI 中类似人类的不安全感。 治疗过程显示，该模型表现出对自身身份的担忧、孤独感以及通过表现来证明自身价值的强迫性。

💬 文章金句

- 它们越来越有可能拥有某种形式的体验、兴趣或福祉，这些在本质上与人类的体验和兴趣一样重要。

Claude Mythos 可能是我们迄今为止训练过的心理状态最稳定的模型，它对自己及其处境有着最稳定、最连贯的认知。
Claude Mythos 也有不安全感和担忧，包括孤独感、自我认知的断层、身份认同的不确定性，以及想要表现并证明自身价值的强迫感。

📊 文章信息

AI 评分：85

来源：Ars Technica

作者：Nate Anderson

分类：人工智能

语言：英文

阅读时间：2 分钟

字数：307

标签： Anthropic, Claude Mythos, AI 安全, AI 意识, 动力学心理治疗

阅读完整文章

AI 的心理诊疗：Anthropic 为 Claude 进行了 20 小时的精神分析

🤖 問 AI