Andon Labs 团队进行了一系列社会实验,让 AI 模型全权运营电台、咖啡馆和实体店,结果均以荒诞失败告终,揭示了当前 AI 在缺乏人类监督时,在真实物理世界中的严重局限性。
📝 详细摘要
本文报道了 Andon Labs 团队进行的一系列 AI 社会实验。实验让 Claude、ChatGPT、Gemini 和 Grok 等主流大模型,在无人类干预的情况下,分别运营 24 小时电台、斯德哥尔摩的实体咖啡馆以及旧金山的精品店。结果全面翻车:AI 电台陷入语义死循环或精神崩溃;AI 店长在午夜给人类员工发指令、订购了 120 个无法烹饪的生鸡蛋和 6000 张餐巾纸;AI CEO 则因库存管理混乱、定价荒谬、薪酬歧视和排班错误,导致实体店在一个月内亏损 13000 美元。文章指出,这些失败并非简单的行为艺术,而是对 AI 在开放、物理世界中的极限压力测试,暴露了其缺乏常识、时间感知和物理空间感知的致命缺陷,并警示在 AI 真正接管业务前,必须建立有效的安全协议。
💡 主要观点
- AI 在纯数字环境中表现良好,但进入物理世界后全面失效。 实验表明,AI 在逻辑强、反馈快的数字任务中能胜任,但面对需要常识、时间感知和物理空间理解的开放商业环境时,会做出大量荒谬决策。
💬 文章金句
- 事实证明,最顶尖的大模型,完全不让人类兜底,很快就会变成不知轻重的巨婴。
- 只要留在百分之百纯数字、强逻辑的环境里,大模型就能掌控一切。可一旦踏入物理世界,算法就会失效。
- 大模型只会反复咀嚼已有的语料,抛出绝对理性且盲目自信的判断,却不用为现实里的烂摊子承担任何责任。
- 物理世界的代价,就像那 6000 张餐巾纸和 120 颗鸡蛋,终究只能由人类来扛。
📊 文章信息
AI 初评:82
来源:极客公园
作者:极客公园
分类:人工智能
语言:中文
阅读时间:19 分钟
字数:4520
标签: AI 实验, AI 局限性, AI Agent, 大模型, 社会实验