← 回總覽

#549. AI 芯片究竟如何工作?GPU/TPU 的底层设计

📅 2026-05-23 18:57 跨国串门儿计划 人工智能 2 分鐘 1836 字 評分: 87
AI 芯片 矩阵乘法 Systolic Array GPU 架构 TPU 架构
📌 一句话摘要 从逻辑门到系统架构,深度解析 AI 芯片如何通过矩阵乘法、数据移动优化和架构取舍(GPU vs TPU)来实现高效计算。 📝 详细摘要 本期节目克隆自《Dwarkesh Podcast》,由 MatX CEO Reiner Pope 从芯片最底层出发,系统性地拆解了 AI 芯片的运作原理。内容从 AND/OR/NOT 等基本逻辑门讲起,逐步深入到 multiply-accumulate 核心原语、Full Adder 电路、Dadda Multiplier 和 Systolic Array 等关键架构。节目核心观点是:在 AI 芯片中,数据移动的成本远比计算本身更高,这成为

📌 一句话摘要

从逻辑门到系统架构,深度解析 AI 芯片如何通过矩阵乘法、数据移动优化和架构取舍(GPU vs TPU)来实现高效计算。

📝 详细摘要

本期节目克隆自《Dwarkesh Podcast》,由 MatX CEO Reiner Pope 从芯片最底层出发,系统性地拆解了 AI 芯片的运作原理。内容从 AND/OR/NOT 等基本逻辑门讲起,逐步深入到 multiply-accumulate 核心原语、Full Adder 电路、Dadda Multiplier 和 Systolic Array 等关键架构。节目核心观点是:在 AI 芯片中,数据移动的成本远比计算本身更高,这成为芯片设计的核心瓶颈。低精度计算(如 FP4 vs FP8)之所以有效,是因为 bit width 的成本呈平方级缩放。Systolic Array 通过数据本地化将计算量按平方增长、通信量按线性增长,是矩阵乘法最有效的硬件实现方式。节目还深入分析了 Clock Cycle 的同步机制、Pipeline Register 的取舍、FPGA 与 ASIC 的灵活性-成本权衡,以及 GPU 与 TPU 在架构上的根本差异——GPU 由许多小计算单元组成,而 TPU 则拥有更少但更大的矩阵单元。

💡 主要观点

- AI 芯片的核心原语是 multiply-accumulate 矩阵乘法中的每一操作都可分解为乘法和累加。乘法使用 AND gate 生成 partial product,累加则依赖 Full Adder 电路压缩求和,这是芯片最基本、最原子化的计算单元。

低精度计算带来平方级优势,而非线性优势 电路面积与 bit width 呈近似平方关系,因此从 FP8 降到 FP4,面积和功耗收益巨大,而非简单的线性减半。这是低精度算术在神经网络中如此有效的根本原因。
数据移动成本远超计算本身,是芯片设计的核心瓶颈 从 register file 读取数据到 ALU 的 mux 电路、布线成本,往往比真正执行乘加运算的逻辑电路要昂贵数倍。这推动了 Systolic Array 等优化架构的出现。
Systolic Array 通过数据本地化实现计算与通信的平衡 它将权重矩阵本地存放在计算单元旁,慢速灌入一次后即可被反复使用,实现计算量按平方增长、通信量按线性增长,是当前最有效的矩阵乘法硬件实现机制。
GPU 与 TPU 的架构差异本质上是计算粒度与灵活性的权衡 GPU 由大量小型 SM(Streaming Multiprocessor)组成,灵活性高;TPU 则采用少量但更大的矩阵单元(MXU),能更好地摊薄矩阵乘法中的通信和控制成本,适合大规模、确定性的计算负载。

💬 文章金句

- AI 芯片最想计算的主要功能,是矩阵乘法。

  • Bit width 存在平方缩放,这非常有效,也是 low precision arithmetic 在 neural net 里这么好用的唯一原因。
  • 光是把数据从 register file 移到 logic unit,这部分工作就比 logic unit 本身贵很多很多倍。
  • 这个问题在整个技术栈从上到下都会出现。
  • 你可以把芯片的吞吐量理解成两个东西的乘积:每个 clock cycle 能做多少事,再乘以每秒有多少个 clock。

📊 文章信息

AI 初评:87

来源:跨国串门儿计划

作者:跨国串门儿计划

分类:人工智能

语言:中文

阅读时间:100 分钟

字数:24836

标签: AI 芯片, 矩阵乘法, Systolic Array, GPU 架构, TPU 架构

收听完整播客

查看原文 → 發佈: 2026-05-23 18:57:17 收錄: 2026-05-23 22:00:59

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。