加里·马库斯讨论了“EsoLang-Bench”的发现,该研究表明前沿大语言模型(LLM)在面对其未记忆过的语言编写的编程任务时,表现会大幅下滑。
📝 详细摘要
加里·马库斯引用了“EsoLang-Bench”的研究,指出前沿大语言模型在测试其未记忆过的编程语言问题时,表现出现断崖式下跌(从 85-95% 降至 0-11%)。他以此来强化他长期以来的观点:大语言模型中的真正推理能力与模式匹配/记忆之间存在差异,并再次强调了“分布偏移”(distribution shift)带来的危险。
📊 文章信息
AI 评分:84
来源:Gary Marcus(@GaryMarcus)
作者:Gary Marcus
分类:人工智能
语言:英文
阅读时间:1 分钟
字数:219
标签: LLM, 基准测试, 泛化, 分布偏移, EsoLang-Bench