NVIDIA AI 工程师：全球规模的智能体推理与“光速”文化 —— Nader Khalil (Brev)， Kyle Kranen (Dynamo)

📌 一句话摘要

本次访谈探讨了 NVIDIA 如何通过 Dynamo 框架、Brev 开发者平台以及“光速”（SOL）第一性原理工程文化来扩展 AI 推理规模。

📝 详细摘要

本文深入探讨了与 NVIDIA 工程负责人 Nader Khalil 和 Kyle Kranen 的对话。内容涵盖了 NVIDIA 开发者体验的演进，特别是对 Brev 的收购如何简化了 GPU 配置以及对 DGX Spark 等本地硬件的远程管理。文章重点介绍了 NVIDIA Dynamo，这是一个数据中心级的推理框架，通过预填充/解码解耦（prefill/decode disaggregation）和基于 Kubernetes 的编排技术，优化了成本、延迟与质量之间的权衡。讨论还强调了黄仁勋的“光速”（SOL）哲学——这是一种要求识别理论物理极限并倒推以产生紧迫感的文化指令。最后，文章探讨了 AI 智能体的安全性，提出了一种限制性权限模型，以防止代码执行过程中的漏洞。

💡 主要观点

- “光速”（SOL）哲学驱动着 NVIDIA 的工程紧迫感和第一性原理思维。 SOL 涉及识别任务的理论物理或性能极限，并质疑任何偏离该极限的情况，迫使团队消除阻碍创新的“现实层级”。

NVIDIA Dynamo 通过解耦技术解决全球规模推理的挑战。 通过将 LLM 推理的预填充和解码阶段分离，Dynamo 实现了更好的资源利用率和跨数据中心的扩展，从而在成本、延迟和质量的竞争需求中进行优化。

AI 智能体安全需要严格的“三选二”权限执行模型。 为防止严重漏洞，智能体应仅被授予三项能力中的两项：文件访问、互联网访问或自定义代码执行；同时具备这三项能力会产生无法控制的安全风险。

Brev 将复杂的 GPU 配置转变为以开发者为中心的流线型体验。 通过抽象云端表单和 SSH 配置的复杂性，Brev 让开发者能够将高端 GPU 和 DGX Spark 等本地集群视为无缝的、可远程访问的资源。

软硬件协同设计对于下一代长上下文 AI 应用至关重要。 随着上下文长度的增加，行业必须超越简单的 API 调用，转向硬件能力与软件框架的深度集成，以在大规模应用中保持性能。

💬 文章金句

- SOL 本质上就像是物理学。光速以特定的速度移动。如果光速变慢了，你就知道有东西挡路了。

智能体可以做三件事：访问文件、访问互联网以及编写/执行自定义代码。你实际上只能让智能体做这三件事中的两件。
NVIDIA 的目标是让开发者尽可能轻松……构建良好的用户体验（UX）意味着你真正了解你的最终用户是谁。
Dynamo 是一个数据中心级的推理引擎，它通过横向扩展并利用预填充/解码解耦等技术来优化服务。
人们拿到这个东西后想做的第一件事就是搞两台，然后在上面运行 Kubernetes 集群。我当时想，哦，我想我知道我为什么在这里了。

📊 文章信息

AI 评分：88

来源：Latent Space

作者：Latent.Space

分类：人工智能

语言：英文

阅读时间：82 分钟

字数：20391

标签： NVIDIA Dynamo, GPU 推理, 开发者体验, AI 智能体, SOL 文化

阅读完整文章

NVIDIA AI 工程师：全球规模的智能体推理与“光速”文化 —— Nader Khalil (Brev)， Kyle Kranen (Dynamo)

🤖 問 AI