哈萨比斯出的难题，GPT 之父接上了：用一个知识停在 1930 年的模型

📌 一句话摘要

Alec Radford 等人用 1931 年前的数据训练了 13B 模型 Talkie，探索模型能否在无现代知识污染的情况下，通过推演「预感」未来，并以此作为评估 AI 真实理解能力的参照系。

📝 详细摘要

文章介绍了由 GPT 之父 Alec Radford、神经常微分方程提出者 David Duvenaud 等人合作的项目 Talkie-1930。该模型使用 1931 年以前的 2600 亿 token 英文文本训练，旨在切断所有现代知识污染，为评估 AI 的真实理解能力提供一个「干净」的参照系。研究者通过让 Claude 与模型对话、测量模型对历史事件的「惊讶度」、以及在 HumanEval 编程测试中评估其从零学习编程的能力，探索模型能否基于已有知识推演未知。项目还面临「时间泄漏」、历史文本 OCR 质量差、以及后训练对齐等挑战。最终目标是训练一个 GPT-3.5 级别的复古模型，以区分哪些是语言模型的普遍属性，哪些是「互联网训练」的特有产物。

💡 主要观点

- Talkie-1930 模型旨在提供一个无现代知识污染的 AI 评估参照系。 通过使用 1931 年以前的公共领域文本训练，模型完全不知道现代知识，这为判断 AI 是真正理解还是仅记忆训练数据提供了独特的测试环境。

模型在 HumanEval 测试中展现出从零学习编程逻辑的能力。 尽管从未见过现代代码，Talkie 能从少量 Python 示例中摸索出编程逻辑，例如理解「逆函数」概念，表明模型具备一定的抽象推理能力。

项目面临「时间泄漏」、数据质量和后训练对齐三大挑战。 历史文本中混入的现代注释会导致模型「开窍」；传统 OCR 对旧书识别质量差，影响模型性能；现代指令微调数据会污染模型的「时代感」，需用历史文本构建专属对齐流程。

💬 文章金句

- 一个训练数据截止到 1911 年的模型，能不能自己推导出爱因斯坦 1915 年提出的广义相对论？

我们以为自己在研究「语言模型的普遍规律」，实际上研究的，会不会只是「训练在互联网上的模型」的特殊性质？
一个对数字计算机一无所知的模型，依然能从示例里摸索出编程的逻辑。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：13 分钟

字数：3239

标签： Talkie, Alec Radford, 复古模型, AI 评估, 数据污染

阅读完整文章

哈萨比斯出的难题，GPT 之父接上了：用一个知识停在 1930 年的模型

🤖 問 AI