本文深入剖析了 AI 模型「失语」现象(如无法说出「马嘉祺」),将其归因于后训练阶段对低频 token 的灾难性遗忘,并借人类「舌尖现象」进行类比分析。
📝 详细摘要
文章以 MiniMax 模型无法正确输出「马嘉祺」这一现象为切入点,系统分析了 AI 模型的一种新型故障——「失语」。作者指出,该现象不同于常见的「幻觉」或「谄媚」,其本质是模型在预训练阶段已习得的知识,在后训练(SFT/RLHF)过程中因低频 token 被高频 token 的向量更新所挤压,导致「语义通路完整,表层生成通路断裂」。文章详细解释了分词器(tokenizer)的 BPE 算法如何决定 token 的颗粒度,以及「灾难性遗忘」和「对齐税」等概念如何共同导致这一故障。作者还创造性地引入认知科学中的「舌尖现象」进行类比,指出「失语不等于失忆」,并提出了相应的工程修复思路(如为每个 token 提供最低训练机会)。最后,文章将「失语」置于 AI 错误研究的谱系中,强调了用户高频使用对发现此类故障的关键作用。
💡 主要观点
- AI「失语」是一种新型故障,表现为模型「内有外无」。 模型内部表征中存有知识(如知道马嘉祺是谁),但无法在输出端正确生成对应的 token(如说不出「嘉祺」),与幻觉和谄媚并列,构成 AI 错误的新类型。
💬 文章金句
- AI 不是在认识马嘉祺,而是在被教会怎么说话的过程中,忘了如何把「嘉祺」这两个字说出来。
- 失语不等于失忆。评估模型时,「会不会输出」和「知不知道」应当被分开测量。
- AI 系统的健康,正在被使用强度悄悄定义。高频高强度应用的领域,故障会被快速看见。低频或边缘群体使用的领域,故障正在沉默地累积。
- 修复了「嘉祺」,下一个被挤压的 token 还在词表里某处。
📊 文章信息
AI 初评:88
来源:腾讯研究院
作者:腾讯研究院
分类:人工智能
语言:中文
阅读时间:21 分钟
字数:5155
标签: 大语言模型, 失语, 灾难性遗忘, 分词器, 舌尖现象