城主说|在昨天的2小时主题演讲之后,黄仁勋今天再次出现在GTC2026现场, 进行了一次面向金融分析师的闭门长篇问答,回应了很多尖锐问题。
黄仁勋在这个问答里详细阐述了数据中心如何从计算工具演变为制造 Token 的“AI 工厂”,并披露了对 Blackwell 和 Rubin 架构超过 1 万亿美元的市场需求预见。讨论涵盖了 Tokenomics(Token 经济学)如何重塑 IT 软件产业、物理 AI 的巨大潜力、硬件架构(包括 Groq 与铜连接技术)的演进,以及公司在保持高毛利率的同时为股东创造价值的战略。
视频全文和章节:
00:00:02 AI发展的第三个拐点与代理式系统
00:10:21 代币经济学与一万亿美元市场前景
00:19:24 软件产业重塑与AI投资回报路径
00:30:06 硬件架构演进:Rubin与GROC的差异化定位
00:42:06 全栈AI工厂设计:内存优化与机架架构
00:50:52 资本策略与竞争护城河:理解工厂产出效率
00:59:23 数据中心连接演进:从铜缆到硅光技术的转型
01:08:59 降低代币成本与混合专家模型的技术创新
01:17:55 AI愿景展望:物理机器人与训练推理的融合
核心观点
* •AI 的第三个拐点:行业已从生成式 AI、推理阶段步入“代理式系统(Agentic Systems)”,AI 能够自主执行复杂任务。
* •计算即制造:计算机已从工具转变为制造设备(AI 工厂),其产出物是具有经济价值的 Token,衡量标准是单位功耗下的 Token 生成效率。
* •万亿市场规模:NVIDIA 对 Blackwell 和 Rubin 在 2027 年前的市场可视化需求充满信心,规模超过 1 万亿美元。
* •IT 产业转型:传统的 2 万亿美元软件许可行业正在向通过代理系统转售 Token 的模式转型,市场规模有望扩张至 8 万亿美元。
* •全栈架构优势:通过整合 GPU、CPU(Grace)、存储和网络,NVIDIA 能够触及 40% 的非超大规模云厂商市场(如企业、工业和边缘端)。
* •“AI 已经从对话式步入‘代理式’阶段,它不再只是回答问题,而是开始执行任务。”
* •“未来的计算机不再是工具,而是制造设备,产出的核心产品是具有经济价值的 Token。”
* •“我们对 Blackwell 和 Rubin 的可视化需求已超过 1 万亿美元,这不是一个浮点数,而是明确的订单与可见性。”
* •“传统的 2 万亿美元软件许可行业,正向通过代理系统转售 Token 的模式转型,市场规模有望扩张至 8 万亿美元。”
* •“如果你不了解 Token 经济学(Tokenomics),你就不了解 AI 生意。购买成本最低的设备并不代表赢,单位功耗下的 Token 生成效率才是王道。”
* •“物理 AI 的规模将远超数字 AI,因为世界不是发生在笔记本电脑里,而是发生在原子存在的物理空间。”
AI 的第三个拐点:从“回答问题”到“执行任务”
黄仁勋明确指出,行业正处于生成式 AI 演进的关键十字路口。如果说第一波浪潮是内容的生成,第二波是推理能力的普及,那么现在我们正身处第三个拐点——代理式系统(Agentic Systems)。这些系统具备自主性,能够根据设定的目标拆解并执行复杂任务。
这种转变直接重塑了人才的定义和企业的运营模式。“过去,当工程师入职时,公司给他们配备的是一台笔记本电脑。而现在,你给他们的不仅是电脑,还有 Token 预算。”黄仁勋强调,如果一位高薪工程师在工作中不消耗 Token,那么他的产出将受到质疑。在这种语境下,OpenClaw 等开源项目不再是“玩具”,而是 AI 时代的操作系统,负责调度资源、管理网络并驱动代理执行任务。
计算即制造:迈向万亿美金的“AI 工厂”
英伟达正在重新定义计算机的本质。黄仁勋将现代数据中心比作 ASML 的制造设备或发电厂:其原材料是电力,产出物则是具有高度经济价值的 Token。这意味着,衡量算力优劣的标准不再是单纯的芯片价格,而是“Token 经济学”。 “计算机曾经仅仅是一个工具,未来的计算机是制造设备。它们的能源效率和生产效率至关重要,因为这决定了你的收入。”黄仁勋指出,客户购买昂贵的 Blackwell 系统并非为了转售硬件,而是为了生产成本最低、价值最高的 Token。英伟达通过持续提升单位功耗下的 Token 生成效率,确保了其产品在即便单价更高的情况下,依然具备不可替代的投资回报率(ROI)。
路线图的底气:Blackwell 与 Rubin 带来的万亿可见度
针对市场对 AI 投资可持续性的疑虑,黄仁勋给出了极其强硬的数据回击。他透露,英伟达对 Blackwell 和 Rubin 架构在 2027 年前的可视化需求充满信心,规模已超过 1 万亿美元。 “这可不是一个浮点数,我们对超过 1 万亿美元的市场规模有着清晰的预见、明确的需求预测以及采购订单。”这种可见性不仅来自于超大规模云服务商(CSPs),更来自于英伟达的全栈平台优势。黄仁勋解释道,通过整合 Grace CPU、GPU、网络与存储,英伟达能够触及那 40% 无法通过单一芯片满足的非超规模市场(如企业内部部署、工业边缘端等)。“如果你仅仅是制造芯片,那 40% 的市场是绝对不可能实现的,因为他们买的是平台。”
Token 经济学:IT 产业的 8 万亿美元转型
访谈中,黄仁勋提出了一个震撼的预测:全球 2 万亿美元的软件许可行业正面临转型。未来的 IT 公司将不再仅仅授权软件,而是成为 Token 的分销商和转售商。 “当前的 IT 行业可能会从 2 万亿美元变成 8 万亿美元。全球 100% 的 IT 行业都将成为 OpenAI、Anthropic 等模型能力的转售商。”这种商业模式的改变意味着毛利率结构的重塑。虽然增加了 Token 生产的销售成本(COGS),但由于 AI 代理提供了远超传统软件的价值,整体市场空间将成倍放大。“未来的技术公司将出租 Token、生成 Token,它们的商业模式将发生根本性改变。”
硬件架构的博弈:GROC、铜连接与液冷革命
在技术实现的微观层面,英伟达展示了其极其细腻的架构平衡术。黄仁勋深入解析了 GROC 架构在推理市场中的地位,认为其极低延迟的特性将占据约 25% 的高阶推理市场。
同时,关于“光进铜退”的争议,黄仁勋给出了务实的判断:“你应该尽可能长久地使用铜技术,因为它可靠且易于制造。直到物理极限无法逾越时,我们才会转向 CPO(光电共封装)。”他透露,即使在向 1152 架构演进的过程中,英伟达仍将在存储、管理和特定连接中大量保留铜连接,以维持系统的韧性与成本优势。此外,全液冷机架的设计已成为英伟达 AI 工厂的标准配置,以支撑日益暴涨的功率需求。
物理 AI:人工智能的终极疆域
尽管数字 AI 正在如火如荼地重塑办公室工作,但黄仁勋认为真正的蓝海在于物理世界。他预言物理 AI 最终将占据 70% 的市场份额。 “全球与物理 AI 相关的产业规模远大于数字 AI。世界并不是发生在我们的笔记本电脑里,而是发生在它原本存在的地方。”从工厂自动化到自动驾驶,再到具备长效记忆的机器人,物理 AI 要求模型处理的是连续的物理法则而非简单的离散 Token。这不仅对算力提出了更高的要求,也让英伟达的 Omniverse 等模拟平台成为了物理 AI 训练不可或缺的基石。
推理即思考,算力即国力
最后,黄仁勋重申:未来 99% 的算力都将用于推理。“没有人会为学习本身买单,人们为结果付费。推理是将 Token 转化为经济价值的过程。”
这种从“预训练”到“后训练”再到“实时推理”的连续体,正是英伟达全栈实力的体现。英伟达不仅在制造芯片,更在制定 AI 时代的节奏。在这个万亿美金的工厂里,每一个生成的 Token 都在重新定义生产力的边界。正如黄仁勋所言,如果你不理解这套经济逻辑,你就注定会被这个新时代抛弃。
Web3天空之城全文整理
*AI 的三个拐点与代理式系统的兴起
主持人: 大家早上好。希望你们喜欢昨天的演示。虽然时间稍微长了一点,但这对我们来说是一次非常棒的总结。接下来我们将利用这段时间关注你们的需求以及一些后续问题。我们将从几张幻灯片开始,或许是第一张左右,然后开放提问环节,对此我将交给 Jensen。
黄仁勋: 正如我昨天所说,近期 AI 领域出现了三个拐点。第一个是生成式 AI。第二个是推理。我们现在正处于第三个拐点,每一个拐点都建立在前一个基础之上。每一个拐点建立在前一个基础之上都有很多技术原因。现在我们来到了第三个拐点,即代理式系统。能够自主运作的 Agentic systems,之所以称之为 Agentic,是因为它们具备代理能力,你可以为它们设定目标。它们现在不再仅仅是回答问题,而是能够执行任务。任务的内容包罗万象,当然,Agentic systems 最热门的应用之一就是编写软件。相信在你们公司,当然也包括我的公司,工程师们整天都在使用 Agentic systems。
过去,当工程师入职时,公司给他们配备的是一台笔记本电脑。而现在,当你入职时,公司给你的不仅是笔记本电脑,还有 tokens。token 预算现在已经成为现实。每位工程师都将拥有自己的 token 预算。试想一下,你聘请了一位年薪 300,000 美元的工程师,如果他们在工作中不消耗任何 token,你就不得不质疑:他们到底在做什么?因此,现在非常明确的一点是,每一位工程师都将拥有大量我们必须消耗的 tokens。而这些 token 将会被生产出来。
刚才我提到了一点,如果你能将这些点串联起来,以前当工程师或软件程序员来上班时,我们会给他们一台笔记本电脑。那是一个工具。如今,我们给他们的是笔记本电脑和 token。这些 token 必须经过制造。因此,计算机曾经仅仅是一个工具。未来的计算机是制造设备。所以,如你所见,这些计算机在未来与 ASML 的制造设备别无二致。它们正在生产可供销售的产品。这与很久以前生产电力的发电机没有任何区别。这些是制造系统。它们的能源效率和生产效率至关重要,因为这决定了你的收入。明白吗?所以第三个转折点就在这里。
Open Source。许多这类开源项目刚发布时,看起来像玩具一样。如果你退一步,从第一性原理去分析 Open Source 到底是什么。我昨天已经解释过了。
从第一性原理来看,Open Source 是一台计算机,是 AI 计算机的操作系统。一台计算机,一台个人 AI 计算机。它具备了计算系统的所有属性。它具备了这种新型计算机操作系统的一切特性。它负责管理资源。它负责调度,进行调度工作,处理 I.O.,并且它还负责网络连接。它具备了基础计算机的所有特性。明白了吗?所以你可以看到,红线指的不是也不是 y 轴。红线代表的是它的增长。这才是最非同寻常的事情。
因此,现在世界上每一家公司都需要思考:你们的 Open Source 策略是什么?每一家软件公司,每一家,每一家公司都需要拥有一个 Open Source 策略。我们曾经都有自己的 Linux 策略一样,我们都必须拥有互联网策略一样,曾经思考你们的移动云策略是什么一样。现在的问题是,你们的 Open Source 策略是什么。这是一个非常重大的事项。 *
路线图更新:Blackwell 与 Rubin 的万亿需求
黄仁勋: 接下来,我针对我在这里所说的话做进一步的回答。首先,一年前,我曾表示我们对 Blackwell 和 Rubin 在 2026 年前的出货量有着 5000 亿美元的明确预期。总之,在2025年的某个月份,我曾说过我们对 Blackwell 和 Rubin 的需求有着清晰的预见,包括需求订单和采购订单,是非常明确的5000亿美元的需求。你们当中有许多人提出了很多问题,比如,我们现在进展到什么阶段了?你们希望了解我们目前的最新进展。所以我考虑给各位做一个更新。我们目前所处的节点,现在是几月?作为记录,现在是3月。所以我们正处于3月。3月。距离2027年结束还有很长一段时间。我首先想让各位明确这一点。然而,由于我们正在建设基础设施和工厂,且每个人的交付周期都很长,他们希望确保尽早向我们提供确定的需求或采购订单,以确保其供应,明白吗?
因此,我们对超过1万亿美元的可视化需求充满信心,请注意,这可不是一个浮点数,各位,明白吗?它也不需要精确到94位数字,明白吗?而且我们计算的不是几美分。你可以保持你的理智。然而,我们对超过1万亿美元的 Blackwell 和 Rubin 市场规模有着清晰的预见。之所以只提到 Blackwell 和 Rubin,而不包括我们销售的其他所有产品,是因为我参考了去年当时我只谈论 Blackwell 和 Rubin 的情况。这听起来不合理吗?
提问者: 去年我们还没有 Groq。去年我们也没有单独销售 standalone CPU。
黄仁勋: 去年我们还没有现在需要销售的许多产品。因此,如果我今天把这些产品包含进去是不合理的,但这并不是因为我们昨天没有这些东西。这听起来不合理吗?有人点个头,我就可以继续了。
因此,有几点情况。这只是 Blackwell 和 Rubin。这还不够好。这不是 Rubin Plus,也不是 Rubin Ultra。它不是这些东西中的任何一个。它不是独立的 Vera。
主持人: 它不是 Groq。是 Blackwell 加 Rubin。
黄仁勋: 我们有高度的信心、强大的可见度、需求、预测,以及超过一万亿美元的采购订单。
主持人: 我们经常在出货时就完成了交易,而且我们预计也会如此。
黄仁勋: 我们确实预计如此。从现在到 2027 年底,我们将完成并交付更多的业务。我们预计从现在到 2027 年,在此基础上将完成、记录并交付更多的业务。之所以如此,是因为我们预计从现在到 2027 年底,我们依然会持续开展工作。
与众不同的是,由于我们构建并完成了这种质量的系统,我们确实能够在同一个季度内赢得、预订并交付新的业务。当然,如果你必须构建 ASIC 或者类似的东西,显然是无法做到这一点的。如果你现在还没有看到这一点,那么到 2027 年底你就无法完成交付。但这对于我们来说并非如此。我们建立了库存。我们拥有充足的供应渠道,并且我们必须利用这一点。 *
Token 生产的经济学:效率、价值与定价
主持人: 我们必须照顾那些突然出现的客户,因为他们急需更多的算力。
黄仁勋: 这有道理吗?因此,当他们急需更多算力,并且突然在最后一天说:天哪,我确实需要更多。我希望能够回答,而且我们总是处于能够回答的状态:我们非常乐意为您提供帮助。我们也在开拓新客户、新市场和新地区,这些尚未计入此处,因为我们还有大约 21 个月的时间。明白吗?我希望你们理解那 1 万亿美元的规模,根据定义,它将持续增长。根据定义,因为它所对比的对象在不断增长,所以它最终会比这个数字更大。我还想补充几点,去年是非常好的一年,因为 2025 年是我们的推理之年,我们帮助大家理解了计算机的价格与 Token 的成本,这两者之间仅存在微弱的关联。计算机的价格与 Token 的成本。记住,人们购买这些计算机是为了生产 Token。这些 Token 生产的效率至关重要。他们并不是在转售这些计算机。如果你购买了一台计算机,它很昂贵,如果你只是把它转售出去,那它确实显得昂贵。但你买了一台电脑,而且它很昂贵。
主持人: 但你买了一台电脑,而且它很昂贵。
黄仁勋: 因为这项技术令人难以置信,但它生成 token 的速度也非常惊人。你同时购买了最昂贵的电脑,并生成了成本最低的 token。这难道不合理吗?这就是我们每天在做的事情。这就是我们的工作。这正是我们能够交付价值的原因,我们在这里交付的价值差异,即我刚才描述的两个数字,就是我们能够确保毛利率的方式。
我们必须交付,并且我们始终交付远超预期的价值,也就是每秒 token 生成量,即单位功耗下的每秒 token 生成量。我们每一代产品都交付了远超以往的价值,以至于客户宁愿以更高的价格购买我们的下一代产品,也不愿购买价格更低的当前一代产品。他们更倾向于即时转换。当 Vera Rubin 问世时,安装 Vera Rubin 比继续购买 Grace Blackwell 更明智。你们听懂了吗?有人点个头。明白了吗?因为即使价格更高,其价值也更优越。
所以我正在对比这两个系统,因为它们是目前世界上两大系统,在你能超越这两个系统之前,购买其他产品毫无意义。
主持人: 而且这两个系统极难被超越,因为摩尔定律无法带来 35 倍的性能提升。
黄仁勋: 所以仅靠摩尔定律是行不通的。制造更快的芯片也无济于事。你必须构建一个更快速、集成大量芯片的系统。去年也就是 2025 年是我们的推理之年,我们已经展示了在推理领域的领先地位。
主持人: 训练,从训练后阶段到现在的推理。
黄仁勋: 去年我们还做了一些非常棒的事情,那就是我们扩大了覆盖范围,增加了支持我们平台的 AI 数量。去年,即 2025 年,我们将 Anthropic 加入了我们的平台,这是全新的增长。我们增加了 Meta Llama,这也是全新的增长。我们仍在与 Meta 在其他所有事务上进行合作。Meta Llama 是一个全新的实体,他们有全新的计算需求。
我们都可以承认,去年开源软件和开源模型实现了腾飞。以至于 API 推理服务提供商现在发现,开源模型大约已成为第二大主流 AI 模型。这意味着,按生成的 token 总数计算,第一名当然是 OpenAI。综合来看,开源模型位列第二。Nvidia 是全球开放模型领域的最佳平台。我们是各地开放模型的事实标准。因此,第一是 OpenAI,第二是所有各类开放模型。第三是 Anthropic,第四是 xAI。只需列出你的清单,继续推进即可。 *
全栈平台与生态系统影响力
主持人: NVIDIA 去年覆盖的模型数量大幅增加,这解释了我们在庞大基数下依然保持加速增长的原因。
黄仁勋: 我们已经是一家体量巨大的公司,而现在我们的增长速度正在进一步加快。
主持人: 总之,这就是我的看法。
黄仁勋: 最后一点。我们珍视我们的超大规模计算合作伙伴,并与他们保持着非常紧密的合作。但必须明确一点,我们与超大规模计算厂商的关系不仅限于向他们销售产品。我们为他们吸引客户。在他们的云端提供 CUDA 能够吸引所有的 CUDA 开发者、所有的 AI 原生企业,以及我们合作的所有大型公司。每当我们为这些大型或小型公司提供加速服务时,我们就将他们引入并落地,让他们托管在各家全球 CSP 中。我们是全球 CSP 最好的销售力量之一。
主持人: 这就是为什么如果你走到展会现场,会发现他们都设有最大的展位。
黄仁勋: AWS 在这里设有最大的展位。Google Cloud 在这里设有最大的展位。Azure 在这里设有最大的展位。Oracle 有巨大的展位,CoreWeave 在这里也有很大的展位。这难道不合理吗?因为我们为他们带来了客户。他们为什么会在这里?与我的开发者交流,向我的开发者销售产品。
而我们所有的开发者只知道如何编写一种程序。他们只知道如何编写 CUDA 程序,并且只使用 CUDA-X 库。当我们获胜并帮助这些开发者集成 Nvidia 时,他们就会落户于我们的 CSP 合作伙伴平台。我们是 CSP 最好的销售团队之一。
主持人: 好的。
黄仁勋: 然而,我们也看到 CSP 之外的客户呈现出巨大的多样性。区域性云服务商、工业、企业内部部署,当 Dell、Lenovo 和 HP 的业务增长如此迅速,且所有 ODM 的增长也如此迅速时,那 40% 的业务(即图表右侧部分)中,有很大一部分来自这里。大多数人只看到我们左侧 60% 的业务。
如果缺少 Nvidia 的全栈技术,缺少我们整体架构的能力(即我们能够为您构建整个 AI 工厂),以及全球所有开放平台都运行在 Nvidia 之上,你就完全无法触及那 40% 的市场。所以,总结一下。这张图表所表达的即是如此。
主持人: 那 60% 中很大一部分是 NVIDIA 开发者在云端落地。
黄仁勋: 如果没有全栈技术,没有端到端的支持,那 40% 的 100% 是不可能实现的。我表达清楚了吗?理解我们的业务非常重要。我们将这一切统称为加速计算,这可能对你们来说表述不够精准。所以明年,我们将以一种不同的方式进行拆分。
未来我们将以一种不同的方式进行拆分,看起来可能这张图表一样。届时你们会在那 60% 的份额中看到诸如超大规模云厂商之类的内容。即便你看到了这一点,也要记住,我们带给云端的客户中有很多都是如此。
主持人: 再看右侧,如果你仅仅是制造芯片,那么那40%是绝对不可能实现的。因为他们不买芯片。他们买的是平台。三条信息,全都挤在一张幻灯片上,这可能让你大脑超载了。
黄仁勋: 所以我又重申了一遍。这样有帮助吗?我本应该做三个板块或三张幻灯片。
主持人: 本应该做三个板块或三张幻灯片。那样也就一秒钟的事。
黄仁勋: 那本来会是一秒钟的事。七小时的主题演讲。但那是值得的。
*
问答环节:现金流、估值与智能体增长
主持人: 好了,就这样。谢谢。提问环节。我们现在开始接受提问。
Ben Wright: 你好。我是 Amelia's Research 的 Ben Wright。感谢邀请我们参加这次活动。你们提供的这种接触机会非常难得。祝贺你和你的团队取得这些成就。这太棒了。Jensen,昨晚我们拍照的时候,顺便说一下,大家还可以去点赞那张照片。我需要打破去年的记录。
黄仁勋: 什么照片?
Ben Wright: 我们快速拍了一张照片,我已经发布了,我正努力超越去年的点赞数。
黄仁勋: 好的。
Ben Wright: 好吧。
黄仁勋: 我当时有没有处于什么尴尬的姿势之类的?
Ben Wright: 我们可以这样说。相机让我看起来胖了10磅,但你却没有。我不知道那是如何运作的。你看起来很棒。所以我答应过要问你一个关于推理的问题,这与此相关。这太棒了。这里很多人都明白这一点。我们遇到的主要阻力是:这是否值得投入?超大规模云服务商(hyperscalers)在API和云业务上的收入增长是否足以证明所有这些支出是合理的?
Jensen 看到了什么?我对这些超大规模云服务商有预估,我也说过他们的收入有上涨空间,但目前资本开支(CAPEX)比他们的云业务高出20%。以及 API 收入。我想知道你看到了什么。您过去曾提到,来自客户——尤其是超大规模云服务商(hyperscalers),以及那些服务于 Anthropic 和 OpenAI 的客户——的现金流有巨大的增长空间。那么,我们何时才能调高对这些业务的预期?
我知道这对您来说是个棘手的问题,因为您同时还要为其他三、四或五家公司提供指引,但如果我们能看到这种上行潜力,相信您的股票表现会好得多,因为届时我们将意识到这种基础设施建设能够持续下去。那么,这个转折点究竟在何时?我们确实看到了转折,但它的具体时间点在哪?您认为他们的收入增长潜力有多大?以及我们该如何对这一点更有信心?
主持人: 我真希望那些公司是上市公司。
黄仁勋: 原因在于,如果它们上市,你们就能看到我所看到的一切。历史上没有任何一家公司。
主持人: 曾作为一家初创公司,一家非上市公司,实现过每周增加十亿或二十亿美元的收入增长。
黄仁勋: 这就是他们目前正在经历的增长速度。
主持人: 记住,我刚才强调的是‘每周’。
黄仁勋: 整个IT软件行业的规模约为2万亿美元。
主持人: 不相信这2万亿美元规模的行业会被颠覆。相信它会被转型。相信那2万亿美元的IT行业中的每一家,都将整合OpenAI、Anthropic以及各种开源模型。
黄仁勋: 并将它们与名为 Open Source 的开源软件连接起来,我们将其转化为了企业级版本 NeMo,这样你就能立即获得一个智能体。已有150万人下载了 Open Source 并构建了自己的智能体。只需要一行代码。然后你告诉智能体去完成它自身的构建。如果你不知道这个东西,那就去学习它。于是它就开始执行和学习了。明白吗?
因此,在未来,这些智能体将被整合到 IT 行业中。当前的 IT 行业拥有 2 万亿美元的软件许可规模。它可能会变成,让我随便选个数字,8 万亿美元,同时也会转售大量的 token。全球 100% 的 IT 行业都将成为 OpenAI 和 Anthropic 的转售商。你们跟得上我的思路吗?没有吗?提高你们对 OpenAI 和 Anthropic 的估值吧。
相信 Anthropic 和 OpenAI,当然还有所有的 IT 公司,也会利用开源模型来修改和定制他们自己的软件及模型。这就是 Nemotron 的用途,也是 NeMo 的用途,我们创造了所有的工具,这也是我们与他们所有人合作的原因。他们都将创造出整合了这三个组件的智能体。相信这一点。它们将实现惊人的增长。这一时刻终将到来。而且很快就会到来。
其原因在于,你可以从 Anthropic 的数据中看出来。你也可以从 OpenAI 的数据中看出来。它们的发展速度不是常态,它们在一个月内增长的规模相当于整个 IT 公司的体量。
主持人: 这些 AI 公司的营收,其 AI 不仅会被企业直接使用,而且将具备可分销性。
黄仁勋: 通过 IT 公司进行销售,并集成到 IT 公司之中。这听起来合理吗?因为只要想想 AI 本质上就是软件而已。
主持人: 他们的软件将直接提供给企业,同时也会被整合,变得更具领域针对性、专业化,并具备治理、安全、易于配置的特性,且能连接到企业的记录系统等等。
黄仁勋: 这将会形成一个整体的,代理式系统(agentic system)。这些系统将出租给客户,但客户仍然必须通过工厂(factories)来消耗 token。所以,如果这是通过 OpenAI 实现的,那当然很好。如果是通过 Anthropic 实现的,那也很棒。如果是通过开放模型实现的,那同样没问题。但它们都需要生成 token。
所以总而言之,过去的技术公司是授权软件,而未来的技术公司将出租 token、生成 token。你们听明白了吗?它们的商业模式将会发生改变。这些公司将会变得规模更大。它们的毛利率将会发生改变。毛利率概况将会发生改变,因为它们的商业模式中现在有了 token,有了销售成本(COGS),但它们也提供了更大、多得多的价值。所以这对它们来说令人兴奋,非常、非常令人兴奋。
主持人: 好的。很好。
黄仁勋: 把麦克风从这个 8 万亿美元的环节传递过去。
主持人: 谢谢。
*
物理 AI 与工业边缘端的未来
C.J. Muce: 早上好,C.J. Muce,来自 Cantor Fitzgerald。感谢你们举办这次活动。非常感谢。或许可以跟进一下 Ben 提出的问题。并思考一下这张 60-40 图表的演变。你提到了 NeMo,昨天又宣布了 Vera Rubin DGX AI Factory 参考设计,这本质上是为你们的非超大规模客户提供未来的蓝图。与超大规模云服务商展开竞争。所以我很好奇,当你们将这一切整合在一起时,你们看到了 Token 生成量的巨大激增,你们预计这张图表随时间将如何演变,以及我们应该如何看待其中不同参与者的相对增长向量。
黄仁勋: 这张图表的两侧都在以大致相同的速率增长,直到几年后物理 AI 出现转折点。假设物理 AI 出现了转折点,那么工业侧的计算就必须在本地完成。必须在边缘端完成。必须在实地完成。这必须在工厂内完成。然后突然之间,那 40% 的比例很可能会增长。最终,那 40% 会变得更大。
主持人: 原因在于,全球与物理 AI 相关的产业规模要远大于与数字 AI 相关的产业。全球约有 70 万亿美元的产业,大概 50、60 或 70 万亿美元的规模,都需要物理 AI。
黄仁勋: 因为世界并不是发生在我们的笔记本电脑里。世界发生在它原本存在的地方。因此,有许多与原子相关的业务,如果离开物理 AI 将无法处理。所以相信并希望那 40% 的比例能达到 70%。这两者都将变得极其庞大。因为世界每天都会持续不断地产生 Token。它不会停止。
就在我们交谈的此时此刻,我们所有的笔记本电脑,希望你们大多数人的笔记本电脑,都处于某种闲置状态。但在未来,计算机将全天候 24-7 运行并生成 token,因为你们的智能体正在后台执行任务。有人,我在 Reddit 上看到的一篇帖子提到,某人的某个工具一天消耗了 5000 万个 token。这听起来很多,但只有 50 美元。
主持人: 如果你的智能体在做有成效的工作,花费 50 美元,并不算坏。所以,你可以让一个每天创造数千美元价值的人,通过运行一大堆每天花费 50 美元 token 的智能体,变得更加高效。
黄仁勋: 这将成为常态。就在此时此刻,我在 Nvidia 内部就已经在使用它们了。我希望我每天支付数千美元薪资的员工,能消耗超过 50 美元 token 的资源。你疯了吗?我希望你能管理一整支智能体舰队来完成你的工作。所以,我真心希望那些每天能赚 2,000 美元的人,每天能花掉 1,000 美元的 Token。而且,我刚才所说的合乎逻辑。这终将发生。
主持人: 而且这已经在发生了。这已经在世界各地的软件公司中发生着。
*
推理市场细分:从免费级到极致性能
Stacey Razgan: 大家好。我是来自 Bernstein 的 Stacey Razgan。感谢你回答我的提问。我有一个简短的问题想向 Colette 确认,然后 Jensen,我有一个问题想请教你。Colette,确认一下,提到过 Rubin 将在下半年实现产能爬坡。Groq 听起来要在第三季度发布,那么 Rubin 应该和 Groq 一起发布,我的理解因为 Groq 不太可能独立发布。接下来是 Jensen,我想问你一个更长远的问题。我很喜欢你前几天展示的那张图表。它几乎展示了推理谱系的某种扩展,而这正是推动 Groq 价值增长的动力。你过去常说 GPU 是必然的选择。我们现在看到,随着推理谱系的拓宽和低延迟变得越来越重要,Groq 这样的架构被证明是必需的。
我想问的是。你认为这个谱系今后将如何演变?随着我们在未来几年甚至更久的时间里不断前行,你们平台的现在是否已经具备了所需的所有组件?你认为未来会出现哪些新的推理工作负载类型?你们是否已经拥有了应对这些负载所需的一切要素?随着它的增长,还有其他我们需要持续关注的事情吗?
Colette Kress: 首先,Stacy,感谢你关于 Groq 和 LPDDR 的提问。我们确实传达过那也将从今年下半年开始,等到接近今年下半年时,我们会再看看具体情况。但这确实是在今年内。
Stacey Razgan: 但我记得你昨天说 Groq 会在第三季度出货。
黄仁勋: 这就是我们的预期。不过,Vera Rubin 会比 Groq 先出货。我们会先出货。
Stacey Razgan: 是啊,是啊。
主持人: 原因是我们已经在生产 Vera Rubin 了。系统已经在产线上进行流程了。
黄仁勋: 目前情况就是这样,所以,这没关系。完全没问题。即便对于 Groq 来说,想要超越 Vera Rubin 也极其困难。即使将 Groq 加入到 Vera Rubin 中,想要超越 Vera Rubin 也非常吃力。
我马上就会回答你的问题。在计算领域,虽然并不完全准确,但大致情况确实如此。你有两种类型的架构:一种是极低延迟的,另一种是极高吞吐量的;而前者属于极低延迟架构。CPU 就是一种低延迟计算机。注意板载缓存 S-RAM 的大小。Groq 是这种架构的极端版本,一种超极端版本,其 S-RAM 几乎占据了整个芯片,且调度完全静态化完成,这意味着编译器会确定数据和计算的位置,并让它们在恰当的时间汇合。
整个 Groq 系统像一台巨大的同步机器。因此,它是确定性的,且具有极低的延迟。它不容易编程。它缺乏灵活性。它不是通用型的。但情况就是如此。因此我们所做的是采用了 Vera Rubin,正如昨天我所描述的,它占据了大约四分之三的空间。Vera Rubin 是正确的答案。我们不知道如何使它变得更好。如果我们知道如何让它变得更好,我们就会去改进它。
NVLink 72 以及随后的 Vera Rubin Ultra、NVLink 144 和 Feynman,NVLink 1152,都将继续扩大左侧的架构空间,在那里高吞吐量至关重要。我们将加入 Groq,将其与 Vera Rubin 融合,与我们的 GPU 融合,并利用 Groq 来处理自回归模型的最后阶段,该阶段被用于语言模型。这最后阶段对带宽的需求极其密集。如果我们整合大量 S-Rams,比如数千个 Groq 芯片,那么比例是八比一。
因此,对于最后 25% 的功耗以及那最后 25% 的用例来说,因为数据中心有各种不同的用例,并非只有一种,我们都在使用 ChatGPT。我们都在以不同的方式使用它。我们都有不同的定价等级。所以我们在我的图表中处于不同的区间。我们在那张图表中处于不同的区间。Stacey,大家跟上我的思路了吗?我展示了零级、免费级,还有好、更好、最好、极致版本。
所以,对于免费、好、更好这些层级,Vera Rubin 是不可撼动的。我们想不出附近有任何类似的东西。至于最佳版和极致版,通过加入 Groq,你或许可以提升最佳版的吞吐量,并进一步扩展极致版。
主持人: 现在,极致版已经推出。
黄仁勋: 这是一个新的层级,但考虑到其吞吐量曲线,由于你的业务量很小,无法承受过高的需求,因此必须设定较高的价格。这有道理吗?
然而,出现了一类新的客户,他们非常、非常富有,那就是软件工程师。他们本身的人力成本就已经很高了,如果我每天再给他们增加 100 美元的推理成本或 Token 成本,他们会非常乐意接受。如果我在关键时刻甚至额外增加 1000 美元的成本,他们也会非常乐意。这有道理吗?
所以我只是在描述一个正在趋于成熟的市场正在发生的情况。在市场初期,没人确切地知道这项技术尚未成熟,人们也不知道该如何正确使用它。最初百分之百的推理客户都处于免费层级。而当技术开始达到 o1 和 o3 版本时,付费用户数量突然激增,因为人们现在能够将其用于实际用途。
接着,随着 agents 的出现,比如 Claude Code 和 Codex,这些 token 的价格比免费层级要贵得多,也比每月 20 美元的订阅费用昂贵得多。因此,针对这一细分领域,我们又增加了两个细分市场。你刚才注意到了吗?这和当初的 iPhone 没什么两样。那时只有一个版本。而现在有了非常多的版本。这与汽车行业并无区别。和其他任何行业并无不同。随着市场扩张,细分领域也在随之扩大。
我展示了一家能够生产不同细分领域Token的工厂。从极其智能、速度极快,到高吞吐量、免费层级(free tier)。我描述了一种 AI 工厂架构,它能让你兼顾这一切,从而最大化工厂的总收入。我们让你决定如何进行组合与搭配。据我估计,目前这大概占了 25%,也就是针对少数几家公司而言。你必须是其中之一,你需要生成大量的Token才能使其物有所值。
主持人: 所以,接着还有一大批所谓的推理服务提供商(ISP),也就是 API 服务提供商。
黄仁勋: 他们也能从中获益,因为他们希望能对Token生成进行不同的细分。所以把它叫做。一组10个客户,这10个客户中的25%占据了很大一部分份额。我们可以在25%的基础上,将 Groq 的总收入提高2倍。25%的基础上提高2倍。这有道理吗?所以说是25%。
Stacey Razgan: 随着你继续推出 Groq 的新版本、新一代产品,这会带来什么影响?你是要把这个比例推得更高吗?还是在降低成本的同时增加需求?我只是想了解一下大致情况。我们始终在做两件事中的一件。
黄仁勋: 我们不断提升每一个层级的吞吐量,并不断拓展 AI 的智能化水平。你看到那个帕累托曲线了吗?我一直在将其推向更高水平。向你们展示了从 Hopper 到 Blackwell 再到 Vera Rubin 的过渡。因此,我一直在推动其性能提升,并不断拓展其应用边界。
主持人: 每当我提升性能时……工厂在各个价位的生产规模都会随之扩大。
黄仁勋: 在同等价位下,产量也会增加。当我拓展应用边界时,你们就可以引入新的 AI 层级和新的 Token 层级。
主持人: 因此,你们现在有了新的价格点,比如说每百万 Token 6 美元。
黄仁勋: 这就是目前全球市场的水平。我们确实很想成为那样。我知道他们也都非常想成为那样。每百万 token 50 美元,但那是超大规模、超快速度的模型。你能想象一个 10 万亿参数的模型以每秒 500 个 token 的速度运行吗?我们的工程师会为此支付大价钱。我也会让我的工程师为此支付大价钱。
那个世界终将到来,紧接着下一年又会迎来新的进步,因为模型会变得更大、思考能力更强,并且会使用更多的工具等等。过去的日子里,不知道你们中有多少人知道,在起初的时候,我们只有一款产品。Riva 128。299美元。
主持人: 就这么简单。
黄仁勋: 一款产品。懂吗?那是过去的美好时光。
主持人: 而今天我们有了5090、5080,2种不同的SKU,5070,3种不同的SKU。
黄仁勋: 你们跟得上吗?你们跟得上吗?所有这些SKU的出现,是因为市场规模扩大了,开始细分,人们有了不同的需求。现在的市场在Token方面也正在经历同样的过程。它的规模正变得越来越大,不同的细分市场有着不同的需求。因此我们需要帮助客户、模型制造商生产、制造不同细分领域的 token。我知道它们看起来像是数字,但你要知道,它们是不同的 AI。明白吗?
Stacey Razgan: 明白了。谢谢。
黄仁勋: 所以我们打算在提高吞吐量的同时,同步提高它们的价格。这就是 Vera Rubin 的优势所在。我们每一次都是这么做的。我们在 Blackwell 上做到了,在 Vera Rubin 上也做到了。我们接下来要在搭载 Groq 的 Vera Rubin 上这样做,还要在 Vera Rubin Ultra 上也这样做。我们将不断突破极限。最简单的方法就是帕累托图(Pareto chart),因为工厂承载着许多不同的工作负载和客户,我们要将帕累托前沿(Pareto Frontier)不断向外、向上推移。不断地向上、向外推移。实现这一目标所必需的计算机科学技术简直疯狂。这是所有问题中最困难的一个。
主持人: 谢谢。
*
硬件架构演进:从内存优化到液冷机架
Vivek Arya: 您好,我是来自 Bank of America Securities 的 Vivek Arya。谢谢你,Jensen。谢谢 Colette 主持这次活动,内容非常详实。我想请教两个相关的问题。第一个是关于 Jensen 你展示的这 1 万亿美元规模的问题。你昨天也提到了其他产品,Vera CPU。还有其他 CPU,比如 Groq,还有存储解决方案,比如 CPX,我只是假设。那么这些产品的增量空间有多大?是一个很小的数字吗?还是中等规模?如果假设这些是这一万亿规模之外的增量,那么还有多少潜在的市场空间没有被涵盖在其中?另外,Jensen,我想再深入探讨一下 Groq。提到它将占据推理市场的 25%。这是一个相当大的份额。它是否在蚕食其他业务?随着时间推移,Groq 的价值获取究竟体现在哪里?很多人问我们,它是否会蚕食高带宽内存的需求?不会,但我很想听听您的看法,即如何将 Groq 置于价值获取光谱的正确位置。
黄仁勋: 好的。如今我们是世界上唯一一家能够跨越三种内存优化架构,即单一 AI 工厂的公司。当然,还有 HBM 内存。但我们是第一家使用 LPDDR5 的公司,它具有极高的带宽和极低的功耗。这改变了 CPU 的运作逻辑。第三种是 S-RAM。我们现在可以利用这三种内存类型来构建完美的架构,而且我们正在这样做。
这是第一点。我们过去只提供 NVLink 72 ,即 Grace Blackwell。那时我们只有一个机架。现在我们有五个机架。原因在于——你能翻到下一页幻灯片吗?
主持人: 谢谢。
黄仁勋: 那是上一页。对。你看到了吗?这个。这就是 NVLink 72 所做的。它运行了那个。你们跟得上我的思路吗?它运行了所有这些大型语言模型。这就是它被设计用来做的事情。而且我们所有的推理栈都运行了它。
但请记住什么是智能体系统。它运行这个。这就是 Claude Code 现在所做的工作。这就是 Codex 现在所做的工作。它运行着所有这一切。它拥有记忆功能。
主持人: 这些记忆会进入 KV Cache。它具备此功能,且运行在 HGX 系统上。
黄仁勋: 这种记忆增长得如此之快,以至于需要进行加速。数据量实在太大了。我们所有的工作记忆,每次使用它时,使用得越频繁,我们要解决的问题就越困难。这些是结构化和非结构化数据。这就是我在主题演讲开头提到的内容,即 PDF 和 CSV。这些是鲜有人提及,但在未来却具有不可思议价值的东西,因为这个智能体的速度要快得多。比人类更胜一筹,而且它会以更猛烈、更迅捷的方式去推进。
这合理吗?接着是工具使用。Web browser。因此,Web browser 在 CPU 上运行。所以你需要一个 CPU 来让 Agent 能够使用工具。随后它会衍生出子 Agent,而这些子 Agent 究竟会是什么样子,谁也说不准。其中一个子 Agent 可能是 Copilot,它是 GPU 加速的。另一个子 Agent 可能是 Omniverse,也是 GPU 加速的。所以我们需要在数据中心部署这类 GPU。
那么,该如何理解 Vera Rubin 呢?Vera Rubin 作为一个系统,其规模得到了极大的扩展,因为我们已从处理那部分——虽然那仍占工作负载的 90%——转变为处理所有这一切。你们大家能跟上我吗?
主持人: 这就是AI。这就是ChatGPT的起点。
黄仁勋: 但这就是它现在的样子。
主持人: 有人能点个头吗?
黄仁勋: 不行吗?完全不知道你在说什么。你们大家明白了吗?给我点个赞。谢谢。
主持人: 因为我会再做一次。
黄仁勋: 这就是为什么,有时候我们的主题演讲会超时,因为我看着台下,发现坐在我面前的某个人看起来很迷茫。所以我必须再讲一遍。我不会落下任何人。这就是一个 agent。那么刚才发生了什么?
主持人: 在我们的数据中心,那种数据中心不需要拼凑成弗兰肯斯坦式的产物。它需要使用优雅的电源输送和冷却系统。
黄仁勋: 因此,我们将这里所有的计算机都放入了 MGX 机架。并且我们为这些组件中的每一个都设计了世界上最完美的处理器。然后把它们装进机架。这有意义吗?
所以,如果你打算部署存储——就在上面和这里——如果你打算将其部署在东西向架构中,即与计算节点处于同一个通道,那么你最好不要把它搞成一个东拼西凑的怪胎配置。
主持人: 你不能在 NVLink 72 机架里采用液冷,然后其他地方又用风冷;你不能在这里用 300 千瓦,在那边又只用 50 千瓦。
黄仁勋: 这毫无意义。因此,我们对整个系统进行了重构,将所有组件统一在一种单一的机架架构中。所以,如果你想构建一个集群来运行它,你只需要把它们全部连接起来即可。这真是令人难以置信。相同的电力传输,相同的冷却系统,全部采用 100% 液冷,完全针对工作负载进行了优化,且全面加速。
主持人: 那么现在,回答你的问题:为了运行这个智能体,并能够提供我们刚才与 Stacy 讨论的所有功能,你将需要增加你的 CAPEX。
黄仁勋: 你将增加你的计算支出,即 GPU 计算支出,增加 25%。因此,你为 25% 的工作负载增加了 Groq,并且你购买了 8 倍数量的芯片,其价格大约相同。价格与 NVLink 72 机架相同,明白吗?所以 25% 乘以 2,这和 25% 是一样的。明白吗?所以你的计算支出增加了 25%,这是第一项。而这并不在那 1 万亿之中。
因此,如果那 1 万亿的 100% 现在都加上了 Groq,那么它将达到 1.25 万亿。明白吗?然后我们还有存储,这占很大一部分。因为存储,世界上有大量的存储需求。它是第二大计算支出。第三类是用于工具调用的 CPU。但我并不认为 CPU 的占比会有那么大,因为 CPU 的性能提升空间实在有限,明白吗?所以你可以认为 CPU 大约贡献了另外 5%。
那么如果你要评估整体情况,对比你所看到的 Grace Blackwell 机架和 Vera Rubin 机架之间的差异,明白吗?如果它额外增加了 50% 的机会,这个估算应该差不离。我刚才是不是已经为你梳理清楚了逻辑?大家都听懂了吗?
这就是 Grace Blackwell 上市策略与 Vera Rubin 上市策略之间的根本区别。因为我们在 Grace Blackwell 阶段重点解决的是推理需求,我们想要成为推理之王,毕竟谁不想呢,这就是我们正在解决的问题。Vera Rubin,我们正在解决这个问题。这就是我为什么说 Open Source 具有彻底的变革意义。最终,我们拥有了一款能够贯穿整个体系的软件。一款开源软件,它是这张图表的操作系统。这太不可思议了。现在世界上任何一家公司都可以去构建这个系统。 *
财务策略:供应链投资、生态系统与股东回报
提问者: 跟进这个问题,你们每隔几天就能产生一百万美元的收入,这看起来相当不错。你能谈谈如何利用这些现金在业务中构建战略优势吗?你们正在对生态系统合作伙伴进行投资。你们已经有了针对零部件的采购承诺。你们同时也正在向股东返还现金。你们如何平衡这些优先事项?
黄仁勋: 这些优先事项必须分出先后,第一位是为我们的增长提供资金。对于我们的供应链,我们与之保持着非常密切的合作,正因如此,我们今天的供应链处于一个非常好的状态。这是因为我们与他们进行了长期的合作。我们帮助他们规划业务。我们向他们提供业务订单以支持其增长。我们甚至会预付费用,有时还会资助他们的产能扩张与增长,但我们要为一万亿美元做好准备,在接下来的,我只能说……要把一万亿以上的目标表述得非常清晰,直到12月25日。我想我们可能会在下午4点结束。所以在那段时间,即太平洋标准时间,其中有很多限制条件,一定要确保这一点。无论如何,加上这一部分。这就是第一点。第二点,我们投资于我们的生态系统。因为 CUDA 开发者以及这些 AI 原生应用的增长在这一阶段非常重要。在那之后,我们仍将产生相当可观的自由现金流。所以,让 Colette 来讲。让 Colette 来回答这个问题。我们有一个很好的计划,所以请继续。
Colette Kress: 随着我们未来 1 万亿美元的强劲增长,这当然为我们的自由现金流提供了非常有利的地位。他之前提到了其中的一些方面,即确保我们的供应商以及我们需要构建的所有相关事项都井然有序,而这可能需要一些预付款。
第二点是我们的投资。我们仍在履行我们的承诺。这是我们在去年做出的,我们需要在今年上半年完成。一旦我们继续推进并完成这些工作,我们就有机会进行股票回购,并将重心放在向股东返还资本上。这仍然是我们即将开展的工作中非常重要的一部分。去年我们表现不错,在向他们返还资本方面,我们今年还会取得出色的成绩。
黄仁勋: 打算告诉他们。
Colette Kress: 你想给他们一定数额吗?
黄仁勋: 由你决定?
Colette Kress: 就目前的情况来看,这可能没有考虑加号。我们的股票回购和股息合计可能占自由现金流的 50%。这就是我们的起点。正如你所见,加号是真实存在的。然后这就开始了。为我们提供了进一步做更多事情的机会。关于时机,请再次记住要审视我们在上半年必须完成的一些现有承诺。请保持关注。
*
市场质疑:利润率的可持续性与竞争本质
Tim R.: 我是来自 UBS 的 Tim R.,谢谢。在开始之前我先声明,这并非我的个人观点,而是我从外界许多人那里听到的声音。目前有一种担忧认为,你们正在获取生态系统中过多的价值,且这种利润率长远来看是不可持续的。那么你们对此有何回应?我知道你们在网上也看到过关于必须投资生态系统的言论,有些人将此解读为负面信息。所以,你能谈谈你们将如何维持利润率吗?
黄仁勋: 首先,我昨天告诉大家的内容几乎都是一种全新的视角。每个人都必须理解 tokenomics,这并不违反逻辑。世界需要了解计算机已经演变成什么样,这并不违反逻辑。如果我们能够实现,如果我们每年都能持续实现每瓦每秒处理Token数呈X倍数增长,如果我们因为每年都能引入新的每瓦每秒Token处理能力而持续实现平均售价(ASP)的X倍增长,那么细分市场和客户将非常乐于继续与我们合作。这同样是事实,我之前也说过,而且数学计算结果绝对清晰。每一位云服务提供商的CEO,我向他们所有人发起挑战,去亲自绘制那张图表。我会协助他们。你们可以选择你们青睐的其他配置。第三方芯片,或者你们自研的芯片。将其忠实地代入该模型,然后你们就可以自行决定,你们是想要更高的收入还是更低?你们是想要更高的平均售价(ASP)还是更低?您是想要更高的利润率,还是更低的?因为其含义仅在于此。你看,TSMC 的晶圆价格是全球最高的,但它们也是全球性价比最高的。我很乐意为此买单。ASML 的系统是世界上最昂贵的。但它们物有所值。这一点毫无疑问。
所以问题很简单:您是想赚更多的钱,还是想购买成本最低的设备?这就是其中的区别所在。
我刚才所说的是一个新概念,我们大家都能认同这一点。我刚刚对待了一个计算机系统。我对待计算机系统的方式,我对待 TSMC 芯片工厂的方式,以及我对待 ASML 制造设备的方式。这与人们过去看待这些事物的方式不同。
如果我有两颗 CPU,一颗是 256 核,另一颗也是 256 核。告诉我哪一颗更好。更便宜的那一颗更好,因为无论如何我都是按核心来租赁的。但 Token 的产生方式并非如此。你不是按核心来租赁的。你是通过每秒生成的 Token 数量来实现商业化的。因此,这是一种不同的经济模式。这能理解吗?
你不是在租用核心(cores)。你不是在租用节点(nodes)。你是在生产Token。这就是一切发生改变的原因。有必要确保每个人都理解这个新世界的经济逻辑。坦白说,任何对此持异议的人只是不了解这门生意。仅此而已。他们试图购买成本最低的设备。我的设备成本降低了30%。这对你的工厂意味着什么?
主持人: 这才是真正的问题。
黄仁勋: 如果有人说我的设备、我的芯片便宜了50%?把这个说法放到工厂的背景下去看,那个人其实是在向你证明他不了解AI。他们只是在说,有人过来讲我便宜了30%,这说明你不了解AI。
主持人: 我说我便宜了40%,你不了解AI。我说我的芯片更便宜,你不了解AI。你们都知道我在说谁。
黄仁勋: 我并不是在指代任何人。
主持人: 我只是随便说说。
黄仁勋: 这是一个理论层面的评论。
*
供应韧性与硬件连接的边界(铜 vs. 光)
Josh Buck Alter: 你好,我是来自 T.D. Cowan 的 Josh Buck Alter。感谢您抽出上午的时间与我们交流。我知道有很多客户和合作伙伴都在争取您的时间,因此我们非常感激。我想提一个问题。昨天您曾多次提到,预计到 2027 年产能仍将处于短缺状态。您能详细说明一下这些短缺主要体现在哪些方面吗?另外,关于这一点,您曾形容自己。是首席收入破坏者。而 Satya 也曾表示,考虑到很快就会有下一代产品问世,不希望在某一代产品上投入过多。这种行为是否为 Microsoft 所独有,而这些限制是否在某种程度上起到了保护作用?所以我对此的问题是,TSMC 的限制或产能瓶颈,是否在一定程度上保护了你的其他客户免受这种行为的影响?还是说你认为他们也持有类似的思维方式?
黄仁勋: 顺便说一句,Satya 也会告诉你是谁告诉他的。确实如此。我告诉 Satya,今年需要什么就买什么,因为明年会有更好的东西出现。谢谢你。我不想让你们过度解读或细究我们遣词造句的方式。全球供应是否受到限制?在某种程度上是这样,我们能达成共识吗?说反话很奇怪。世界是否受限于汽车?你看汽车,还有,如果我让需求增长了两倍呢?所以每件事都或多或少受到制约。这取决于所有因素。而且因为我们是在如此庞大的规模上进行建设,我们的生活绝非简单。不能简单地说,我只要解决了这一个问题,一切就都搞定了。
生活很美好。我们正在多个维度、多个供应商之间协调工作,以确保各项事务保持协调一致。我们不会出现库存过剩的情况。我们也不会出现供应不足的情况。我们不仅能够满足现有需求,还有所富余。我们之所以希望保持一定的富余产能,是因为在接下来的 21 个月内,总会有新的需求不断涌现。我已经预见到会有大量新需求产生。所以我必须为此做好准备。
这里涉及各种各样的参数,情况并不简单。如果我告诉你们某一项产品目前面临供应瓶颈,我知道你们会怎么做,不是吗?整个系统是协调平衡的。没有什么是过多的。没有什么是过少的。我们拥有的并不算太多。我们的能源并不算过剩。我们的建筑工人并不算太多。我们的管道工并不算太少。我们的电缆并不算太多。我们的光学设备并不算太少。我们没有两个,你们明白我的意思吗?它就在那里。我们将每天为此努力。但超过一万亿的目标我们可以实现。
Aaron Rakers: 太好了。接下来是来自 Wells Fargo 的 Aaron Rakers。也感谢你们举行这次会议。谢谢。我很惊讶我们竟然在没有被问到这个问题的情况下就进行到了这一步,这个问题更偏向技术层面。现在有很多讨论。
黄仁勋: 我们现在有点像 Fed 了。
主持人: 他说的是 near 还是 almost?
黄仁勋: 他指的又是什么?我们需要整理他之前所有的文字记录,看看他是什么时候用到那个词的?还有,我所知道的情况如下。需求正在大规模加速增长。我们将有能力保障供应。
Aaron Rakers: 太好了。Eric。我正打算问关于架构的问题。呼。我收到了很多问题。关于昨天的演示,即 CPO 从哪里开始,铜缆在哪里结束,你概述了 NVLink 576,幻灯片上还出现了 NVLink 1152。所以我很好奇,你们目前关于同时提供这两者的考量过程是什么?随着我们扩展到 Vera Rubin Ultra 和 Feynman,这种情况将如何演变?只是好奇你的想法。谢谢。
黄仁勋: 请善待我的合作伙伴。他们都做得很好,好吗?我在这里说的任何话都不会暗示他们的业务会受到影响,恰恰相反。他们的业务都将因为我们而增长。我们将发展铜技术。极大程度地发展光学技术。
那么,我刚才说的话是否完全合乎逻辑?答案是肯定的。让我告诉你原因。只要可能,我们应尽可能长久、尽可能远地使用铜技术进行扩展,但在米级左右,这基本上就是铜技术的极限了。明白吗?所以你们已经看到我们从 NVLink 72 发展到现在 Rubin 以及超大规模的 NVLink 144。背板设计之初就是为了能够支持这一点,所以,这大概就是情况,我们会继续在 SerDes 上努力,如果我们能将其从 144 扩展到 288,我们将非常乐意这样做。因为你应该尽可能长时间地使用铜。因为铜不仅易于制造,而且更可靠,我们已经使用这种制造工艺很长时间了。人类使用它已经很长时间了。那么,我说的话对大家来说有什么不合逻辑的地方吗?大家都觉得合情合理。你应该在力所能及的情况下尽可能地呼吸空气,直到呼吸不到为止。在那之后,我们就会呼吸压缩液态空气之类的东西。但在此之前,空气怎么样?好吗?它是免费的。我们已经使用它很长一段时间了。它是安全的。好的。
所以,第一点,我们应该在尽可能的情况下继续利用铜缆进行扩展。正如你所知,我们还将 Ethernet 接入了结构化电缆背板。所以那是一个增量增长的机会。难道不我昨天才刚说过。我们要将以太网的背板转变为这些脊叶架构(spines),因为这种结构化布线非常简便。现在我们已经掌握了如何使用和制造它,这确实是一门艺术。我们现在可以制造这些东西,并且它们易于维护、易于运输、更容易接线,这样就不会出错,这太棒了。
然而,与此同时,我们希望将规模从 72 扩展到 144,甚至到 1152,或许未来还会进一步扩展。而铜缆的传输距离是有极限的。因此你可以看到,我们目前 100% 使用铜缆,而下一代产品 Ultra 将提供两种选择。铜缆或铜缆加 CPO。
主持人: 铜缆加 CPO。或者铜缆。
黄仁勋: 那是从现在起一年后的事。从现在起两年后。
主持人: 在 1152 架构下,全部采用 CPO。因为铜缆技术能支撑的极限有限。因此会有一个过渡过程。然而,即使当 NVLink 和 Spectrum-X 都采用 CPO 时,我们的机架在 Ethernet 纵向扩展上仍将使用铜缆。我们仍将在存储部分使用铜缆。我们会的,这合理吗?因为我们有五种不同的机架。所以,尽管纵向扩展在两三年内会转向 CPO,但我们使用的铜缆总量仍将保持高位。铜连接器的总消耗量将持续增长,因为随着所有这些不同的其他机架投入使用,我们对总容量的需求在不断增加。我表达清楚了吗?好的,谢谢。必须字斟句酌。
*
模型演进:混合专家、状态空间与长效记忆
Jim Schneider: Jim Schneider,来自 Goldman Sachs,感谢你提出这个问题。你之前谈到过 Token 成本的区间以及成本……很高兴听到其中 25% 属于高阶层级。你如何看待低阶或免费层级与高阶层级在增长率方面的市场演变趋势?而且,在一个基于 Token 成本随时间大幅下降的市场中。你认为这种趋势会如何发展?那开始放缓或有可能趋于平稳了吗?为什么?
黄仁勋: Token 成本会持续下降。你能进入下一行吗?
主持人: 调用它。
黄仁勋: 比如,Token 成本会持续下降。每一年都是如此。这只是 Grace Blackwell。然后是 Rubin,Token 成本会再次下降。还有 Rubin Ultra,Token 成本将再次下降。明白吗?与此同时,……随着我们将曲线向右延伸,Token 的智能程度,即每个 Token 的智能水平,也将持续提升。明白吗?也就是横轴。与此同时,我们将提高吞吐量。这就是所有必须要做的事情。没有人关心每秒处理多少 Token。你总是必须将其除以瓦特。原因在于你的数据中心规模是有限的。如果你的数据中心是吉瓦级别的,你不可能有两个这样的中心。如果功率是200兆瓦,你不可能只有两个。三个。这有意义吗?
所以你必须对其进行标准化。否则,任何架构之间都无法进行比较。摩尔定律总是会被某种因素除以。所以你必须采用每瓦每秒处理的 token 数。任何给你展示其他数据的人都不懂 AI,明白吗?或者他们正试图以某种方式欺骗你。好了,这就是为什么 SemiAnalysis 做得正确的原因。他们做对了。一切都除以了1,明白吗?
因此,我们将继续提高吞吐量。所以无所谓。这是每个token的价格,无论ASP是多少,我们都会提高吞吐量。这有道理吗?然后在这里,无论那个细分市场是什么,我们都会降低成本。这下面这一块本质上就是你的细分市场,产品细分市场。那就是吞吐量,也就是数量、容量、产出,以及相应的成本。这就是这两者,所以这两条曲线如此重要。
现在,我将这两条曲线结合起来。如果你愿意,可以将这两条曲线结合在一起,但这会让你头昏脑涨。但这条曲线本质上就是 Pareto。今天世界上大部分资源都集中在这里。这就是 Hopper 的世界。看到了吗?Hopper 大致就在这里。Blackwell 延伸了它并增加了几个部分。而这真的、真的、非常重要。非常有价值,而且人们对此很喜爱。因为这里的平均售价(ASP)差异可能是5倍或10倍。明白了吗?模型更大,速度更快。好吗?所以这些东西非常有价值。
那么我该如何看待曲线的变化,即需求曲线的变化呢?昨天我在这里用了25%,这里用了25%,这里用了25%,还有这里用了25%。我所做的仅此而已。但客户、供应商或制造商在不同产品细分领域的分布情况,各不相同。你们明白我的意思吗?这在一定程度上取决于具体情况。Ferrari 的定位基本都是高端,没有免费层级。懂我意思吗?而其他人则不同,这取决于品牌策略。
在这里也是一样的情况,各位。如果你的业务是搜索,那么你很大程度上会处于免费层级。因为没有人会为搜索付费。所以,如果你经营的是搜索业务,你很大程度上将依赖免费层级。如果你做的是代码生成,或者代理式代码生成,那么你会在这里投入更多。如果你是企业员工,假设该岗位的平均工资,选一个数字吧,比如 50,000 或 70,000,你可能就会处于这个区间。如果你的客户是那一类人,你就希望你的产品定价处于这个区间。这有道理吗?这取决于你的客户以及你为他们所做的工作。这取决于客户、你为他们所做的工作以及市场竞争。这三点至关重要。这完全像其他产品一样。AI tokens 就是产品,是一种新兴的商品,并将以此方式进行市场营销。不同的供应商、不同的品牌、不同的目标市场将会呈现出不同的形态。我昨天只是简单地选择了一个均等分布。明白了吗?
Jim Schneider: 没错,你认为未来哪个细分领域增长得更快?
黄仁勋: 目前它们都在飞速增长。这只是……我觉得目前还不是这样,目前确实不是这样。但情况就是如此。这并不重要。它们都会增长得非常快。它们目前都在呈指数级增长。每一个都是如此。我们正处于起步阶段,要知道,增长率现在正处于被一个极小的数字所除的阶段。
Mark Lepottsis: 你好,我是来自 Evercore 的 Mark Lepottsis。非常感谢你们进行问答环节。我一直都很欣赏这些见解。Jensen,我们的实地调查显示,AI 工程师们对状态空间模型(State Space Models)感到非常兴奋,因为它们解决了内存需求问题。在你的主题演讲中,你展示了 Nemotron 3,将其作为顶级模型之一进行了基准测试。相信那是一个混合专家模型与状态空间模型的结合体。我想知道……令人印象深刻。我刚才只是想……谢谢你,Jensen。过去……新的 AI 工作负载促使了对不同 AI 模型的采用。那是我模仿 Darth Vader 的声音。
黄仁勋: 令人印象深刻。年轻的 Jedi。
Mark Lepottsis: 所以问题在于,代理式 AI 是否正在创造一种新的需求,即对新型 AI 模型的需求?这就是你们在 Nemotron 和混合模型上所做的事情吗?相较于纯粹的专家混合模型,State Space 为 Nemotron 3 带来了什么优势?这对组件有何影响?如果向新型 AI 模型转型,NVIDIA 将面临怎样的竞争环境?
黄仁勋: 无论是全 Transformer、离散 Token、连续模型、扩散模型、State Space 还是混合模型,我们都能运行所有的 AI 模型。我们架构的精妙之处在于它能处理所有这些模型。例如,Groq 可以运行扩散模型。
主持人: 但我们可以做到。
黄仁勋: 可以做任何事。这有道理吗?我拿 Groq 开涮,并不是因为我想针对它,它现在归我所有,所以我可以谈论这些事情。但每种架构都有其用武之地。Nvidia 之所以如此通用,且之所以能被如此广泛地自由使用,是因为无论你的研究科学家明天会想出什么创新,我敢保证它在 CUDA 上都能运行得很好。我向你保证。原因在于我们知道自己拥有完成这一切所需的所有计算要素。
所以,它是……Nemotron 3 的设计初衷是为了让你能够处理极长的上下文。随着时间的推移,你与 AI 模型进行的对话,希望能伴随你的一生。那么问题来了,该如何处理这些上下文呢?如何处理相关的对话记忆,使得一方面,如果我们记录了一切,并且随着时间推移讨论了各种事情,那么你会调取哪一个版本的记忆?当你拥有过多的记忆时,随着时间推移,这些记忆可能会变得混乱。或许进行重置是有帮助的。这些都是研究领域,长时记忆领域确实是前沿的研究方向。
混合架构将成为非常重要的发展方向,因为它允许你处理极长的上下文,而不必遭受计算量呈二次方增长的困扰。这就是我们发明它并将其开源的原因,我们非常乐意让大家使用它。没错,所以它的目的在于推进 AI 技术的发展,而非与任何人竞争。我们无需竞争。
主持人: 我们只是想推进 AI 技术。令人印象深刻。
*
市场集中度与企业的获利权
提问者: 谢谢你,Jensen。所以我正在尝试……去理解你们下游 AI 市场的集中度究竟如何,以及未来会是怎样……你有一张图表显示 60% 的份额属于超大规模云服务商(hyperscalers)。剩下 40% 中,大部分属于二级云服务商(tier 2 cloud)。而其中许多将他们的算力转售或出租给超大规模云服务商或前沿实验室(frontier labs)。所以如果把超大规模云服务商加上前沿实验室算在一起,那么正在使用这些已部署基础设施的用户占比可能达到了 80%。这就是市场集中度的一个体现。然后这些模型,比如 Anthropic 的模型、OpenAI 的模型等,看起来只有极少数处于最前沿。那么,你认为这是对当今形势的准确描述吗?你如何看待它的演变?这又意味着什么呢?就价值链中的获利权、开发以及 AI 的进一步加速而言。好的。
黄仁勋: 我会将其划分为三个维度。好吗?在你讲述的时候,我尽可能将其简化为一个立方体,即三个维度。
第一个维度是最终运行的模型是什么?我之前说过,OpenAI 是最大的。按类别划分的第二大类基本就是所有开源模型。从总体上看,绝对稳居第二。排在第三位的是 Anthropic,以此类推。所以,长尾效应还是相当显著的,因此,如果你审视模型消费领域,即使仅限于语言模型,也应从这个角度去思考。我们运行着所有这些模型。我们参与了所有这些模型的运作。这是一个维度。在模型这一细分维度下,你还必须考虑加入物理 AI 模型,也就是机器人技术。你们看到的所有机器人一样,它们运行的不仅仅是语言模型,而是视觉-语言-动作模型。而这些模型与单纯的语言模型有所不同。模型。例如,电机的控制是连续的。它不是角色。它不是词语。它是连续的。因此物理学是连续的。生物学具有,它遵循几何规律,因为化学物质遵循几何规律。明白吗?所以,有很多不同类型的模型。但关键在于,你必须首先思考正在运行的不同类型的模型。这对于你思考如何正确开展业务很有帮助。
第二个维度是,取决于这些公司的结构方式以及它们的意图或利益,它们是在进行计算,它们要么是想要自研芯片的公司,我们必须与它们竞争;要么是想要提供托管服务的公司。NVIDIA 在其云端的客户。显然,CUDA 只在 NVIDIA CUDA 上运行。那么,它们是否属于例如 NCP 这样的公司,它们需要我们,它们不能只购买芯片,而必须购买系统。因此它们是基础设施客户。或者是想要构建本地部署(on-prem)方案的公司?因此,我的分销渠道通过 Dell、HP 和 Lenovo 进行,因为它必须整合大量其他企业计算组件,而 Dell 和 HP 并不自研芯片?亦或是它们处于边缘计算领域?也许是它们的无线电网络、机器人系统、自动驾驶汽车或卫星等等。这合理吗?现在你必须决定计算是在哪里完成的,明白吗?所以,你可以从几个维度来考虑这个问题。
当你完成所有这些细分之后,回到我之前展示给你的那个 60%、40% 的图表。在那 60% 和 40% 中,基本上 40% 的部分需要计算能力。无论他们运行什么模型都不重要。可以是 OpenAI 的模型,也可以是 Anthropic 的模型。Nvidia 支持机密计算这一事实,使得 OpenAI 能够在右侧(指特定架构或环境)运行成为可能。是我们使得 Anthropic 能够在右侧运行成为可能。因为我们拥有机密计算。在这一侧,他们需要完整的平台,需要机密计算,需要世界不同地区的计算机,而不仅仅是在云端。
即使在云端,我们也与其中一部分存在竞争,但同时我们也为另一部分带来了客户。
主持人: 因此,在 CSP 那 60% 的市场份额中,有一部分是我们必须参与竞争的。
黄仁勋: 我们的工作就是交付那份图表。比世界上任何人都做得更好,我们做得非常非常出色,我们的地位在与日俱增。而对于另一部分,我们则为他们带来了客户。他们对此深表感激。能理解吗?所以我将所有这些维度进行压缩,基本归纳为两块饼图,即两个切片。这种压缩方式,如果你去验证一下,比如他们是否设计了自己的芯片,或者我们是否与他们共同设计芯片?好了,就是这样。这很有意思。接下来你得搞清楚,我们处于什么样的位置,我们的机会在哪里等等。不认为 OCI 会设计他们自己的芯片。认为他们这样做并不明智。显然,CoreWeave 也不会设计他们自己的芯片。所以,我们在哪里竞争?我们又该如何争取云服务提供商客户?他们的云业务收入,很大一部分,真的是很大一部分。显然,OCI 几乎百分之百是因为 NVIDIA,对吧,还有 OpenAI。谢谢。
*
组织架构与行业节奏
主持人: 我来回答最后一个问题。
Tim Schultz: 您好,我是来自 Ross Charlene Co. Redburn 的 Tim Schultz。Jensen,关于您经营公司的方式,展望未来,这12个月的飞轮效应是您竞争优势的关键组成部分。但当我审视员工人数时,增长似乎非常缓慢,相对缓慢,然而您所承担的任务增长速度却远快于此。您是如何管理这一点或为未来的增长做准备的?您又该如何管理这可能对您的业务构成的风险?
黄仁勋: 我的核心团队有60人。我们需要60人的原因在于,公司的架构旨在交付这种架构,即交付这些产品。组织的结构应当反映出他们所构建的产品。并非每家公司都应该拥有相同的业务组织,您明白吗?我环顾四周,心想,看看吧,他们这里有一个业务单元,那里有一个业务单元,别处还有一个业务单元,然而他们却想构建与我们要构建的相同的东西。作为一家公司您所构建的内容——举个例子,并非因为我亲眼所见,而是因为我读过相关资料——构建 Ferrari 的方式与构建 Ford 的方式是非常不同的。在一种情况下,你移动的是汽车;在另一种情况下,你移动的是人。明白吗?所以汽车保持静止。因此,这取决于你想要实现的结果。架构应该反映出这一点。如果你审视我的管理团队,构建 Vera Rubin 整个工厂所需的所有技术要素都已具备。
主持人: 百分之百。
黄仁勋: 每个人都参与其中。所有专业人士齐聚一堂,共同做出决策。第二点是,我们有开发整个软件栈的纪律。如果你无法将其构建并运行起来,就无法实现我们每年所做的工作。你们大家能跟上我的思路吗?这非常有逻辑。如果你无法将其启动,又该如何测试呢?而且如果你是从各处拼凑新技术,又该如何将其整合?每年启动一次。这甚至根本不切实际。这是不可能的。
所以我们将所有的芯片与平台保持一致。全部七款芯片,它们只有同一个流片进度安排。我不会去拼凑每个人的流片进度,然后再去推算系统何时能够交付。当系统需要就位时,它自然会就位,每个人都会围绕它保持一致。至于软件栈,我们完全拥有每一个环节。存储系统就是我们开发的原因所在。网络连接当然也是,甚至包括我们称为 dynamo 的工厂操作系统。我们创造了一切,以便能够交付每一个基准测试,将一切测试到极限,测试其可靠性;而 Nvidia 构建 Nemotron 的原因就是为了能够进行预训练、后训练,现在我们还能进行推理。我们拥有所有的软件,这样我们每年都能升级所有系统,这意味着你一直在进行升级。如果你不拥有这一切,你就毫无机会。零概率。
人们都在谈论他们的新 GPU,但他们的纵向扩展结构(scale-up fabric)来自哪里?这又要如何运作呢?而这仅仅是,我刚才只给你举了两个例子。我们早先谈到的那整套agenetic系统,那就是未来的计算机。因此,这确实是我们公司、公司的组织架构、公司的使命以及公司的能力,所有的一切都旨在让我能够实现刚才向市场所做的承诺。这就是我们能够持续做到的原因。仅仅靠一张PowerPoint幻灯片是无法实现那个系统的。而且,一张只有两个柱状图的PowerPoint幻灯片也无法说服任何人给你500亿美元。这根本说不通。当你试图在数据中心将其工程化落地时,等你把它搞出来,我们已经在前行的道路上又前进了两步。所以,这就是我们为整个公司、整个行业设定的节奏,坦率地说,这极其、极其、极其困难。
我们可以做到,但这正是因为我刚才所描述的所有那些因素。你也知道我们所有的系统都与 CUDA 兼容。所以在第一天,我之前用的软件就能在新系统上完美运行。我拥有所有的纵向扩展交换机。我拥有了所有的横向扩展交换机。我拥有所有的软件。难道不是吗?所以在第一天,我采用之前的软件,并将其部署到新系统上。如果它无法运行,那还有什么意义呢?
一旦我们将一切调试完毕,由于我们拥有整个软件栈,我们就能将其性能发挥到极致。因此,拥有 CUDA 兼容性,我们还有 DOCA,即 DOCA 兼容性,我们拥有所有的编译器,我们拥有整个软件栈。这真的非常、非常重要。你不能将其外包给其他人。别人代你构建这些东西。这就是,你该如何启动一个系统?他们不会为你启动系统。他们也不会为你进行系统验证,你明白吗?所以,就是这样。我们还能再提一个问题吗?可以吗?各位还能再容忍我问最后一个问题吗?我很享受我们现在的交流。让我先准备一下,当不得不选择精确的措辞时,总会有人向我提问。是发型还是什么,他到底是说发型还是什么,这有着本质的区别。 *
终章:训练、推理与合成数据的未来
提问者: 谢谢。感谢你们延长了会议时间并抽空见我。Jensen,我只想澄清一件事。来了。天哪。我改变主意了。
主持人: 祝大家在 GTC 过得愉快。简短说明一下。
提问者: 这一万亿多是否包含 Rubin Ultra?我的问题是……不,我得在这里打断你一下。
黄仁勋: 不。谢谢。不,不。还有,绝对不是。
提问者: 好的。我的问题是,我们在本次活动中讨论了很多关于推理的内容。我希望能占用您几分钟时间谈谈训练方面的问题。就您而言,您如何看待计算强度的增长?在您看来,未来几年内什么会驱动这种增长?依然是吗?模型规模越来越大吗?还是说您预见到未来会有其他方向出现?另外,如果放眼未来三到五年,您如何看待计算需求中训练与推理的比例?谢谢。
黄仁勋: 训练已经从预训练转向了后训练。预训练本质上是记忆过程。记忆与泛化。你记忆得越多,记忆和泛化的能力就越强,而这种记忆与泛化带来的基础就越扎实。一旦你具备了那个基础,这就是它被称为预训练的原因。这如同AI幼儿园一样。更准确地说,不仅仅是幼儿园,而是AI高中。
主持人: 所以现在你完成了预训练。
黄仁勋: 你掌握了基础词汇、语法以及许多潜藏的推理能力,当我教你新技能时,你甚至能够理解它们。因此,现在当我让你去解决数学问题、编写代码或尝试撰写代码时,你已经理解了我的意图。如果你连我的意思都无法理解,又怎么可能尝试去完成它呢?这就是预训练所实现的功能。训练后阶段能教授各种各样的技能,明白了吗?还有强化学习、具备可执行落地的强化学习、可验证反馈的强化学习,以及一大堆面向批处理的强化学习技术,比如工具使用等等,这个清单实在是太长了,基于结构的 API、基于非结构的工具使用,这涉及的领域非常广泛。至于计算强度那部分,我猜可能比预训练要高出一百万倍。虽然我估计的误差系数可能在 1.2 左右,但它的计算量确实非常巨大。原因在于,有太多的技能需要去学习,涵盖了所有这些方面。其推演过程非常、非常漫长。
因此,模型必须变得越来越大。当你精通了这些,当你掌握了这些技能后,你就会获取所有的合成数据,并将其中一部分反馈回下一次的预训练中。所以,昨天的预训练完全是从互联网数据开始的。当下的预训练数据大多源自互联网。再过几代,预训练将主要使用合成数据。与此同时,你正在向其中加入多模态能力。为其添加(该能力)。与此同时,你正在向其中加入运动能力。为其加入长周期的物理动作。之所以这样做,是因为有很多认知逻辑相关的常识,如果你能在物理世界中进行交互,即便是在抽象世界里,处理这些概念也会变得容易得多,明白吗?因为你在物理世界中拥有扎实的体验。
所以,请注意我刚刚所描述的计算量,我们所需的训练算力将是未来的十亿倍,且在此之后还需要持续学习。因此,几乎每个人的模型最终都会经过训练和微调,以便能够针对个人实现记忆和泛化。因此在未来,推理的起点与终点,以及训练的起点与终点,其界限将会变得越来越模糊。何时在学习,又何时在应用你的智慧?嗯,对大多数人来说,现在这已经是一个连续的过程了。所以这大概概括了它的三个阶段。关于推理与训练,我想谈谈我的愿景。
我的愿景是世界上 99% 的算力都用于推理。
原因在于,推理是将 Token 转化为经济价值的过程。没有人会为学习本身买单。没有人会为训练买单。你需要为训练付费。我希望世界能够利用这些 Token 来实现有价值的成果、产生影响力的成果,无论是用于医疗保健、制造业、金融服务,还是工程领域,等等,随你列举。不是吗?
因此我们希望,这也是我们的愿景,即 99%。而且,如果我们的梦想成真,未来 100% 的 Token 都将在 AI 模型学习的同时,产生经济效益。所以,Nvidia 去年全力投入推理(inference)是有非常充分的理由的。原因在于,我们预见了一个未来,其中推理、训练、预训练、学习以及所有相关环节,都只是一个庞大的连续体。
并不是说,回去读读两年前人们写的那些报道。Nvidia 很擅长训练,推理很简单。任何公司都能做到吗?因此,你们还记得吗?推理极其困难。看看这张图表。这极其困难。未来还会变得更加困难。推理就是思考。它正在发挥作用。它正在执行任务。那怎么可能容易呢?我原以为我的生活很轻松。那是高中之前,不是高中之后。高中之前,这非常困难。那之后的情况是。那之后非常困难。
所以人们完全搞反了。他们只是想编造一些故事来合理化他们的机遇,这倒也没什么。但你必须根据第一性原理来思考它。我花很长时间回答你们的问题,而不是给出简短、高度润色、精心挑选且动词名词极其精准的回答。原因在于我希望你们学会通过这些事物进行推理。这样当你们亲自看到时,就会觉得,不,这讲不通,或者这讲得通,或者,我们可以……因为你们是分析师,你们需要有能力理解这些事情。好吗?好的,各位,非常感谢。感谢参加 GTC。