Andrej Karpathy 提出假设:LLM 表现出一种根深蒂固的偏差,即过度拟合上下文窗口中的信息,这很可能是训练过程中产生的,而非特定的实现缺陷。
📝 详细摘要
在这项技术观察中,Andrej Karpathy 讨论了在各种 LLM 中观察到的一种共同行为,即模型过度依赖上下文窗口中提供的信息。他认为,这并非特定 RAG 实现的问题,而是一种更深层次的现象,可能源于训练数据模式(即上下文与任务高度相关)。他指出,模型发展出了一种使用既定信息的偏差,导致在推理时,当检索到的数据出现时,模型会对其产生过拟合。
📊 文章信息
AI 评分:82
来源:Andrej Karpathy(@karpathy)
作者:Andrej Karpathy
分类:人工智能
语言:英文
阅读时间:2 分钟
字数:378
标签: LLM, RAG, 模型训练, 上下文窗口, Andrej Karpathy