#549. AI 芯片究竟如何工作？GPU/TPU 的底层设计

📌 一句话摘要

从逻辑门到系统架构，深度解析 AI 芯片如何通过矩阵乘法、数据移动优化和架构取舍（GPU vs TPU）来实现高效计算。

📝 详细摘要

本期节目克隆自《Dwarkesh Podcast》，由 MatX CEO Reiner Pope 从芯片最底层出发，系统性地拆解了 AI 芯片的运作原理。内容从 AND/OR/NOT 等基本逻辑门讲起，逐步深入到 multiply-accumulate 核心原语、Full Adder 电路、Dadda Multiplier 和 Systolic Array 等关键架构。节目核心观点是：在 AI 芯片中，数据移动的成本远比计算本身更高，这成为芯片设计的核心瓶颈。低精度计算（如 FP4 vs FP8）之所以有效，是因为 bit width 的成本呈平方级缩放。Systolic Array 通过数据本地化将计算量按平方增长、通信量按线性增长，是矩阵乘法最有效的硬件实现方式。节目还深入分析了 Clock Cycle 的同步机制、Pipeline Register 的取舍、FPGA 与 ASIC 的灵活性-成本权衡，以及 GPU 与 TPU 在架构上的根本差异——GPU 由许多小计算单元组成，而 TPU 则拥有更少但更大的矩阵单元。

💡 主要观点

- AI 芯片的核心原语是 multiply-accumulate 矩阵乘法中的每一操作都可分解为乘法和累加。乘法使用 AND gate 生成 partial product，累加则依赖 Full Adder 电路压缩求和，这是芯片最基本、最原子化的计算单元。

低精度计算带来平方级优势，而非线性优势 电路面积与 bit width 呈近似平方关系，因此从 FP8 降到 FP4，面积和功耗收益巨大，而非简单的线性减半。这是低精度算术在神经网络中如此有效的根本原因。

数据移动成本远超计算本身，是芯片设计的核心瓶颈 从 register file 读取数据到 ALU 的 mux 电路、布线成本，往往比真正执行乘加运算的逻辑电路要昂贵数倍。这推动了 Systolic Array 等优化架构的出现。

Systolic Array 通过数据本地化实现计算与通信的平衡 它将权重矩阵本地存放在计算单元旁，慢速灌入一次后即可被反复使用，实现计算量按平方增长、通信量按线性增长，是当前最有效的矩阵乘法硬件实现机制。

GPU 与 TPU 的架构差异本质上是计算粒度与灵活性的权衡 GPU 由大量小型 SM（Streaming Multiprocessor）组成，灵活性高；TPU 则采用少量但更大的矩阵单元（MXU），能更好地摊薄矩阵乘法中的通信和控制成本，适合大规模、确定性的计算负载。

💬 文章金句

- AI 芯片最想计算的主要功能，是矩阵乘法。

Bit width 存在平方缩放，这非常有效，也是 low precision arithmetic 在 neural net 里这么好用的唯一原因。
光是把数据从 register file 移到 logic unit，这部分工作就比 logic unit 本身贵很多很多倍。
这个问题在整个技术栈从上到下都会出现。
你可以把芯片的吞吐量理解成两个东西的乘积：每个 clock cycle 能做多少事，再乘以每秒有多少个 clock。

📊 文章信息

AI 初评：87

来源：跨国串门儿计划

作者：跨国串门儿计划

分类：人工智能

语言：中文

阅读时间：100 分钟

字数：24836

标签： AI 芯片, 矩阵乘法, Systolic Array, GPU 架构, TPU 架构

收听完整播客

#549. AI 芯片究竟如何工作？GPU/TPU 的底层设计

🤖 問 AI