← 回總覽

哈萨比斯出的难题,GPT 之父接上了:用一个知识停在 1930 年的模型

📅 2026-04-30 12:50 机器之心 人工智能 2 分鐘 1320 字 評分: 88
Talkie Alec Radford 复古模型 AI 评估 数据污染
📌 一句话摘要 Alec Radford 等人用 1931 年前的数据训练了 13B 模型 Talkie,探索模型能否在无现代知识污染的情况下,通过推演「预感」未来,并以此作为评估 AI 真实理解能力的参照系。 📝 详细摘要 文章介绍了由 GPT 之父 Alec Radford、神经常微分方程提出者 David Duvenaud 等人合作的项目 Talkie-1930。该模型使用 1931 年以前的 2600 亿 token 英文文本训练,旨在切断所有现代知识污染,为评估 AI 的真实理解能力提供一个「干净」的参照系。研究者通过让 Claude 与模型对话、测量模型对历史事件的「惊讶度」、

📌 一句话摘要

Alec Radford 等人用 1931 年前的数据训练了 13B 模型 Talkie,探索模型能否在无现代知识污染的情况下,通过推演「预感」未来,并以此作为评估 AI 真实理解能力的参照系。

📝 详细摘要

文章介绍了由 GPT 之父 Alec Radford、神经常微分方程提出者 David Duvenaud 等人合作的项目 Talkie-1930。该模型使用 1931 年以前的 2600 亿 token 英文文本训练,旨在切断所有现代知识污染,为评估 AI 的真实理解能力提供一个「干净」的参照系。研究者通过让 Claude 与模型对话、测量模型对历史事件的「惊讶度」、以及在 HumanEval 编程测试中评估其从零学习编程的能力,探索模型能否基于已有知识推演未知。项目还面临「时间泄漏」、历史文本 OCR 质量差、以及后训练对齐等挑战。最终目标是训练一个 GPT-3.5 级别的复古模型,以区分哪些是语言模型的普遍属性,哪些是「互联网训练」的特有产物。

💡 主要观点

- Talkie-1930 模型旨在提供一个无现代知识污染的 AI 评估参照系。 通过使用 1931 年以前的公共领域文本训练,模型完全不知道现代知识,这为判断 AI 是真正理解还是仅记忆训练数据提供了独特的测试环境。

模型在 HumanEval 测试中展现出从零学习编程逻辑的能力。 尽管从未见过现代代码,Talkie 能从少量 Python 示例中摸索出编程逻辑,例如理解「逆函数」概念,表明模型具备一定的抽象推理能力。
项目面临「时间泄漏」、数据质量和后训练对齐三大挑战。 历史文本中混入的现代注释会导致模型「开窍」;传统 OCR 对旧书识别质量差,影响模型性能;现代指令微调数据会污染模型的「时代感」,需用历史文本构建专属对齐流程。

💬 文章金句

- 一个训练数据截止到 1911 年的模型,能不能自己推导出爱因斯坦 1915 年提出的广义相对论?

  • 我们以为自己在研究「语言模型的普遍规律」,实际上研究的,会不会只是「训练在互联网上的模型」的特殊性质?
  • 一个对数字计算机一无所知的模型,依然能从示例里摸索出编程的逻辑。

📊 文章信息

AI 初评:88

来源:机器之心

作者:机器之心

分类:人工智能

语言:中文

阅读时间:13 分钟

字数:3239

标签: Talkie, Alec Radford, 复古模型, AI 评估, 数据污染

阅读完整文章

查看原文 → 發佈: 2026-04-30 12:50:00 收錄: 2026-04-30 18:00:08

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。