为什么算力追赶这么难？前谷歌架构师现场黑板推演底层架构，看懂芯片底层逻辑里被忽视的“空间博弈”

📌 一句话摘要

本文通过前谷歌 TPU 架构师 Reiner Pope 的深度访谈，从逻辑门、全加器、多路复用器到脉动阵列，系统推演了 AI 芯片的底层架构，揭示了数据移动成本远超计算成本的核心矛盾。

📝 详细摘要

本文是对 Dwarkesh Patel 播客访谈的编译整理，嘉宾为 AI 芯片公司 MatX CEO、前谷歌 TPU 架构师 Reiner Pope。文章从最基础的逻辑门（与门、或门）和全加器讲起，手工推演了乘加运算的电路实现，揭示了芯片设计中一个反直觉的核心事实：在现代芯片中，真正干活的'计算单元'只占极小面积，绝大部分成本、空间和能耗都花在了'搬运数据'上。文章详细解释了多路复用器作为数据移动成本的主要来源，以及脉动阵列如何通过将权重矩阵就地存储来大幅提升计算与通信的比例。此外，还探讨了时钟周期与流水线寄存器的权衡、FPGA 与 ASIC 的架构差异、缓存与便签内存的区别、CPU 与 GPU 核心设计的根本差异，以及大脑与芯片在时钟速度和能效上的对比。文章最后将 GPU 描述为'许多微型 TPU 铺满芯片'，并介绍了 MatX 的'可拆分脉动阵列'设计理念。

💡 主要观点

- 芯片内部数据移动成本远超计算成本。 通过多路复用器的电路分析，文章指出将数据从寄存器文件移动到逻辑单元的代价，比逻辑单元本身昂贵许多倍，这是芯片设计中所有隐藏成本的根源。

脉动阵列通过将权重矩阵就地存储来优化计算与通信比例。 脉动阵列的核心思想是将矩阵乘法的外层循环固化到硬件中，让权重矩阵长期驻留在计算单元内部，从而大幅减少数据进出寄存器文件的带宽需求，实现计算与通信的平方级优势。

精度位宽与裸片面积存在平方级缩放关系。 降低精度（如从 FP8 到 FP4）带来的面积节省远超线性预期，这是低精度算术在 AI 中如此奏效的根本原因，也是 Nvidia 在 B300 中 FP4 速度达到 FP8 三倍的原因。

时钟速度与面积效率之间存在根本性权衡。 追求极高时钟速度需要插入大量流水线寄存器来同步数据，这会占用大量芯片面积，反而损害吞吐量。芯片设计需要在时钟速度和面积效率之间找到平衡。

GPU 本质上是许多微型 TPU 组成的阵列。 从宏观架构看，GPU 的流式多处理器（SM）内部包含类似 TPU 的矩阵单元和向量单元，但粒度更小、数量更多，适合非结构化工作负载，而 TPU 的粗粒度设计更适合大规模矩阵乘法。

💬 文章金句

- 芯片绝大部分成本，都花在毫无技术含量的搬运数据上。

仅仅是将数据从寄存器移动到逻辑单元的代价，就比计算单元本身昂贵了许多许多倍。
精度位宽与裸片面积之间，存在着平方级的缩放关系。这就是为什么低精度（如 FP4）比你想象的还要暴利。
如果你一味把芯片的时钟速度飙得极快，代价就是要把几乎所有的面积都花在'同步数据'的寄存器上，这反而会扼杀你真正的算力吞吐量。
从一个极高的宏观视角来看，一块 GPU，本质上就是把许多'微型的 TPU'铺满了整个芯片。

📊 文章信息

AI 初评：86

来源：AI科技大本营

作者： AI科技大本营

分类：人工智能

语言：中文

阅读时间：79 分钟

字数：19622

标签： AI芯片, 芯片架构, 脉动阵列, TPU, GPU

阅读完整文章

为什么算力追赶这么难？前谷歌架构师现场黑板推演底层架构，看懂芯片底层逻辑里被忽视的“空间博弈”

🤖 問 AI