四位 AI 专家以辩论形式围绕 Transformer 与 Post-Transformer 架构展开深度讨论,从智能本质、Scaling Law、硬件适配等角度探讨了 AI 架构的未来方向。
📝 详细摘要
本期节目是一场上世纪 90 年代拳击赛风格的 AI 思想对决,由 Pathway 主持,选手包括 Transformer 共同发明者 Lukasz Kaiser 和 Llion Jones(后者站在 Post-Transformer 阵营),以及 Adrian Kosowski 和 Mathias Lechner。辩论核心问题:Transformer 是 AI 的终极架构,还是我们已站在后 Transformer 时代的门口?
Lukasz 为 Transformer 辩护,将其比作可微分的记忆系统,强调其简洁、可扩展且已被证明能产生聊天、写代码等真实能力。Adrian 则认为智能尚未迎来「PageRank 时刻」,Transformer 只是智能的一种实现,而非底层原理。Llion 作为 Transformer 的发明者之一,大胆指出社区已陷入局部最优,需要质疑神经网络的基本假设。Mathias 代表务实路线,主张混合使用 Transformer 和 Post-Transformer 构建块,根据硬件和场景灵活选择。
辩论覆盖了 Scaling Laws 的核心地位、语言是否限制了推理效率、大脑相比 Transformer 的数据效率优势、硬件锁定的现实瓶颈,以及 Perplexity 作为终极评估指标的价值等议题。最终结论是:Transformer 现在仍然赢,但未来未定。
💡 主要观点
- Transformer 的核心优势在于简洁且可扩展的 memory 模型 Lukasz 将 Transformer 视为一种记忆系统:为每段输入写 key 和 value,再用 soft attention 检索。这种简洁的机制已被证明能扩展至聊天、编程等复杂任务,这是多数其他架构无法做到的。
💬 文章金句
- 这个疯狂简单的机器,只是在一句话或者一段更长文本里预测下一个 token,却能够和你聊天,现在还能写代码,点击你电脑上的窗口。
- 我认为在智能这件事上,我们还没有迎来 PageRank 时刻。
- 今天我没有听到任何理由,能让我怀疑自己的信念:一定还有更好的东西。
- 你越能更好地压缩互联网,你就越智能。
- 如果你给我看一个模型,它只是稳定地慢五十倍,但增长曲线更好,那你就赢了。
📊 文章信息
AI 初评:88
来源:跨国串门儿计划
作者:跨国串门儿计划
分类:人工智能
语言:中文
阅读时间:100 分钟
字数:24986
标签: Transformer, Post-Transformer, AI架构, Scaling Law, AGI