#568. Transformer 辩论：如何理解下一代智能之争

📌 一句话摘要

四位 AI 专家以辩论形式围绕 Transformer 与 Post-Transformer 架构展开深度讨论，从智能本质、Scaling Law、硬件适配等角度探讨了 AI 架构的未来方向。

📝 详细摘要

本期节目是一场上世纪 90 年代拳击赛风格的 AI 思想对决，由 Pathway 主持，选手包括 Transformer 共同发明者 Lukasz Kaiser 和 Llion Jones（后者站在 Post-Transformer 阵营），以及 Adrian Kosowski 和 Mathias Lechner。辩论核心问题：Transformer 是 AI 的终极架构，还是我们已站在后 Transformer 时代的门口？

Lukasz 为 Transformer 辩护，将其比作可微分的记忆系统，强调其简洁、可扩展且已被证明能产生聊天、写代码等真实能力。Adrian 则认为智能尚未迎来「PageRank 时刻」，Transformer 只是智能的一种实现，而非底层原理。Llion 作为 Transformer 的发明者之一，大胆指出社区已陷入局部最优，需要质疑神经网络的基本假设。Mathias 代表务实路线，主张混合使用 Transformer 和 Post-Transformer 构建块，根据硬件和场景灵活选择。

辩论覆盖了 Scaling Laws 的核心地位、语言是否限制了推理效率、大脑相比 Transformer 的数据效率优势、硬件锁定的现实瓶颈，以及 Perplexity 作为终极评估指标的价值等议题。最终结论是：Transformer 现在仍然赢，但未来未定。

💡 主要观点

- Transformer 的核心优势在于简洁且可扩展的 memory 模型 Lukasz 将 Transformer 视为一种记忆系统：为每段输入写 key 和 value，再用 soft attention 检索。这种简洁的机制已被证明能扩展至聊天、编程等复杂任务，这是多数其他架构无法做到的。

智能的底层原理尚未被发现，类似 PageRank 时刻仍未到来 Adrian 认为 Transformer 只是智能的一种形式，而非底层原理。就像 PageRank 发现了信息索引的核心机制，AI 领域仍需一个真正解释智能过程的数学方程。

语言限制了推理效率，非语言推理可能更快 Llion 指出当前模型被迫用语言思考，但人类的直觉和快速泛化往往不需要语言。Post-Transformer 需要原生的 latent space reasoning 能力，而非通过冗长的 Chain of Thought 实现。

Scaling Law 仍是不可绕过的门槛，新架构需证明更好的 scaling curve Lukasz 强调 Transformer 的成功得益于其强大的可扩展性。任何新架构不能仅靠概念优势，必须展示出比 Transformer 更陡峭的 scaling curve，否则即使慢 50 倍也值得探索。

硬件不是锁死创新的借口，真正强的架构终将推动硬件进化 Lukasz 回忆 Transformer 当年也不适配 TPU（需将 softmax 卸载到 CPU），但最终证明了自己。如果新架构有更好的 scaling curve，硬件自会跟进；Agent 写 CUDA 的能力也降低了工程门槛。

💬 文章金句

- 这个疯狂简单的机器，只是在一句话或者一段更长文本里预测下一个 token，却能够和你聊天，现在还能写代码，点击你电脑上的窗口。

我认为在智能这件事上，我们还没有迎来 PageRank 时刻。
今天我没有听到任何理由，能让我怀疑自己的信念：一定还有更好的东西。
你越能更好地压缩互联网，你就越智能。
如果你给我看一个模型，它只是稳定地慢五十倍，但增长曲线更好，那你就赢了。

📊 文章信息

AI 初评：88

来源：跨国串门儿计划

作者：跨国串门儿计划

分类：人工智能

语言：中文

阅读时间：100 分钟

字数：24986

标签： Transformer, Post-Transformer, AI架构, Scaling Law, AGI

收听完整播客

#568. Transformer 辩论：如何理解下一代智能之争

🤖 問 AI