在一台 1970 年代的 PDP-11 上训练 Transformer 需要多久？答案是 5.5 分钟

📌 一句话摘要

本文报道了一个名为 ATTN-11 的实验项目，开发者使用 1970 年代的 PDP-11 小型机和纯汇编语言，成功训练了一个仅 1216 个参数的单层 Transformer 模型，在 5.5 分钟内完成了序列反转任务，并由此引发了关于 AI 发展核心驱动力的讨论。

📝 详细摘要

文章详细介绍了 ATTN-11 项目，这是一个极具启发性的技术实验。开发者 David R. L. 在 1970 年代的硬件环境（PDP-11 小型机）和软件环境（纯汇编语言）下，实现并成功训练了一个极简的 Transformer 模型。该模型仅有 1216 个参数、单层单头，用于完成序列反转任务。通过一系列针对古董硬件的深度优化，如使用定点算术、分层学习率、查找表替代超越函数等，最终将训练时间从最初的预估 6.5 小时压缩至仅 5.5 分钟。文章不仅复现了技术细节，还重点引用了 Hacker News 上的讨论，探讨了该实验的深层意义：Transformer 的核心思想（自注意力）在极简条件下依然有效，而 AI 发展的真正瓶颈或许并非硬件算力，而是关键性的思路与想法。

💡 主要观点

- Transformer 的核心思想在极简的硬件和软件环境下依然有效。 ATTN-11 项目证明，即使在没有 GPU、浮点单元和现代深度学习框架的 1970 年代计算机上，仅用 1216 个参数的 Transformer 也能通过自注意力机制学会序列反转这类需要理解位置映射关系的任务。

针对特定硬件的深度优化能带来数量级的性能提升。 项目通过使用定点算术（Q8/Q15）、手动调优的分层学习率、用查找表替代昂贵的指数/对数运算、精心设计的内存布局等优化手段，将训练时间从最初预估的 6.5 小时大幅缩短至 5.5 分钟。

AI 发展的关键瓶颈可能在于思路而非硬件算力。 文章引用的社区讨论指出，1980-90 年代的超级计算机（如 Cray）在理论算力上已足以训练早期语言模型，但 Transformer 等关键架构思路直到 2017 年才被提出，这凸显了算法创新和系统性思维的重要性。

💬 文章金句

- 「真正的瓶颈从来都不是硬件，而是想法。」

在一台 1970 年代的计算机上，一个仅有 1216 个参数、单层单头的 Transformer，在约 350 步训练后就实现了 100% 的准确率，而训练时间只有 5 分钟左右。
由于 PDP-11 时代，程序的主要存储介质是 Paper Tape（穿孔纸带），因此，该项目开发者又称该项目为「Paper Tape is All You Need」。
该项目的目标是训练一个 Transformer 来反转数字序列。尽管看似简单，但对神经网络来说，模型必须学会将每个 token 路由到仅由其索引决定的位置，没有基于内容的捷径。
经过优化后，模型在 350 步内即可收敛，使得在开发者的 PDP-11/34A 上，总训练时间缩短至仅 5.5 分钟。

📊 文章信息

AI 初评：88

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：18 分钟

字数：4302

标签： Transformer, PDP-11, 汇编语言, 硬件考古, AI 历史

阅读完整文章

在一台 1970 年代的 PDP-11 上训练 Transformer 需要多久？答案是 5.5 分钟

🤖 問 AI