原始标题: NVIDIA’s AI Engineers: Agent Inference at Planetary Scale and “Speed of Light” — Nader Khalil (Brev), Kyle Kranen (Dynamo)
发布日期: 2026-03-10 | 来源频道: @latent-space
📝 深度摘要
1. 核心技术主旨 (The TL;DR)
本期节目揭示了 NVIDIA 在大模型推理领域的最新战略布局——从底层硬件到上层软件的垂直整合。核心主题围绕"Dynamo"数据中心级推理引擎展开,这是一款建立在 vLLM、SGLang 等开源框架之上的调度层产品,旨在解决大规模 Agent 推理中的扩展性瓶颈。NVIDIA 通过收购 Brev 将开发者体验纳入战略版图,同时提出"Pre-fill/Decode 分离"架构来突破传统 KV Cache 的单副本扩展限制。节目还深入探讨了长上下文处理中的注意力机制二次复杂度挑战、MoE 与 MLA 等前沿优化技术,以及 NVIDIA 内部数万人使用的 Codex Agent 部署实践。这是一场关于"AI 基础设施第一性原理"的技术深潜,展示了从硬件到调度层的完整技术栈演进路径。
2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)
嘉宾身份
Nader Khalil:Brev 创始人,现任 NVIDIA Brev/Dynamo 工程师。Brev 是一家专注于简化 GPU 访问体验的初创公司,2024 年被 NVIDIA 收购后,其技术团队并入 NVIDIA 开发者体验战略部门。
Kyle Kranen:Dynamo 架构师,NVIDIA 推理引擎核心开发成员。Dynamo 是 NVIDIA 最新的数据中心级推理调度层产品,负责协调大规模推理工作负载的资源分配与吞吐量优化。
核心产品与架构定位
Brev 的核心价值在于提供一键式 GPU 访问体验,降低开发者使用高性能计算资源的门槛。其产品设计理念与 NVIDIA 的开发者生态战略高度契合——让 GPU 资源像云服务一样唾手可得。收购完成后,Brev 技术被整合进 NVIDIA 的开发者工具链,成为 DGX Spark 等硬件产品的软件配套。
Dynamo 则代表了 NVIDIA 在推理侧的软件栈延伸。它并非从零构建的推理引擎,而是建立在 vLLM、SGLang 等成熟开源框架之上的调度层(Scheduler Layer),通过以下方式提升大规模推理效率:
- KV Cache 优化:最大化缓存命中率,减少重复计算
- Pre-fill/Decode 分离:将预填充(Prompt Processing)与解码(Token Generation)阶段分配到不同的 GPU 池
- 动态资源调度:根据实时工作负载自动调整资源配比
这一定位体现了 NVIDIA 的"Infrastructure as Code"思路——不重复造轮子,而是在成熟开源方案之上构建企业级调度能力。
3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)
a. 系统架构与硬件交互 (Infra & System Design)
Dynamo 的架构哲学
Dynamo 的设计目标清晰:解决大规模推理场景下的扩展性问题。在传统架构中,推理服务通常采用单副本部署模式,所有请求在同一组 GPU 上完成 Pre-fill 和 Decode 两个阶段。这种模式在小规模场景下运行良好,但随着请求量增长,会遭遇明显的瓶颈:
- 内存墙问题:Pre-fill 阶段需要将整个 Prompt 加载到 GPU 内存进行注意力计算,而 Decode 阶段每次只生成一个 Token。两者对 GPU 内存的需求模式截然不同,但传统架构无法区分处理。
- 计算效率失衡:Pre-fill 是计算密集型操作,Decode 是内存密集型操作。在同一组 GPU 上运行时,计算单元和内存带宽无法同时被充分利用。
- 扩展性受限:单副本架构的扩展只能通过增加副本数量实现,但每个副本都需要完整的模型副本,硬件利用率低下。
Pre-fill/Decode 分离架构
Dynamo 提出的解决方案是将两个阶段彻底分离到不同的 GPU 池:
- Pre-fill Pool:专门处理 Prompt 预填充,配置高计算能力 GPU,优化大批次处理
- Decode Pool:专门处理 Token 生成,配置高内存带宽 GPU,优化小批次甚至单批次延迟
这种架构的优势在于:
- 消除内存墙:两个阶段独立扩展,不再相互牵制
- 提升硬件利用率:每类 GPU 都能发挥其架构优势
- 动态资源分配:根据实时工作负载调整两个 Pool 的 GPU 数量比例
节目未详述具体实现细节,但可以推断 Dynamo 采用了类似 Splitwise 的跨节点通信机制来处理 Pre-fill 和 Decode 之间的 KV Cache 传输。
KV Cache 优化策略
KV Cache 是大模型推理中的核心优化点。Dynamo 通过以下策略最大化缓存命中率:
- 请求合并:将相同或相似 Prompt 的请求合并处理,复用已计算的 Key-Value 向量
- 缓存淘汰策略:根据访问频率和时效性动态管理缓存空间
- 跨请求复用:在 Agent 场景下,同一对话历史可能被多次引用,缓存复用可显著降低延迟
硬件产品线
NVIDIA 在本期节目中提到了两款硬件产品:
- DGX Spark:小型 GPU 系统,设计定位介于个人工作站和数据中心之间。可通过 Brev 进行远程管理和资源调度,代表了 NVIDIA 对"普惠 AI 基础设施"的探索
- RTX 6000 Pro:96GB VRAM,单卡即可运行大模型(70B 参数级别),面向需要本地部署的企业和个人开发者
b. AI 范式与工作流重构 (AI Paradigms & Workflows)
大模型推理的三个轴
节目提出了一个精炼的框架:大模型推理存在三个相互制约的轴
- 质量(Quality):模型输出的准确性、相关性、连贯性
- 成本(Cost):推理过程中的计算资源消耗,直接关联 GPU 小时数和电力成本
- 延迟(Latency):从请求发出到首 Token 生成的响应时间,以及 Token 生成的吞吐率
这三者构成不可能三角(Impossible Triangle):在给定硬件条件下,无法同时优化所有三个指标。例如:
- 追求最低延迟需要使用更大批次、更激进缓存,但这会增加成本
- 追求最高质量可能需要多次采样或更大模型,这会同时增加延迟和成本
- 追求最低成本可能需要降低批次大小或使用更小模型,但这会影响质量和延迟
Dynamo 的设计哲学是在这三个轴之间提供灵活的调度策略,让用户根据业务场景选择最优配置。
长上下文挑战
长上下文(100K+ Token)是当前大模型应用的核心难点之一。节目深入探讨了背后的技术挑战:
注意力机制的二次复杂度:标准 Attention 的计算复杂度是 O(n²),其中 n 是序列长度。当上下文达到 100K Token 时,单次前向传播的计算量是 4K Context 的 625 倍。这对 KV Cache 的内存压力尤为显著——每个 Token 的 Key 和 Value 向量都需要存储,越长的上下文意味着越大的内存消耗。
MoE(Mixture of Experts)缓解策略:MoE 通过稀疏激活机制,在推理时只激活部分"专家"网络,而非全量激活。这种设计可以在不显著增加计算量的前提下扩展模型容量。Kimi 2 采用了这一思路,通过增加专家数量、减少每个专家的参数量来平衡效率和性能。
MLA(Multi-Head Latent Attention):MLA 是 DeepSeek-V2 提出的创新架构,通过将多个注意力头的 Key-Value 向量压缩到低维潜在空间,显著降低 KV Cache 的内存占用。节目提到 MLA 已成为长上下文模型的标准优化方向。
Agent 推理的未来
Codex 的大规模部署:NVIDIA 内部的 Codex(代码生成 Agent)已部署至数万名员工使用,连 CEO Jensen Huang 也亲自参与使用。这不仅是技术验证,更是组织层面的范式转变——从"AI 作为工具"到"AI 作为工作流节点"。
超长任务运行:当前 Agent 已能持续运行 20-45 分钟甚至数小时,执行复杂的多步骤任务。节目预测到 2026 年底,Agent 的持续运行时间可达 24 小时,覆盖几乎所有企业级工作场景。
Agent 工作流特征:
- 多轮推理:Agent 需要在长时间跨度内保持上下文一致性
- 工具调用:Agent 需要频繁调用外部工具(搜索、代码执行、API 调用)
- 状态管理:长时间运行意味着需要可靠的中间状态保存与恢复机制
c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)
推理质量的评估维度
节目未详细展开评估体系,但可以推断 NVIDIA 在推理质量评估方面关注以下维度:
- 准确率:模型输出与预期答案的匹配度
- 一致性:相同输入在不同请求下的输出稳定性
- 鲁棒性:对恶意输入或异常情况的处理能力
- 延迟分布:不仅关注平均延迟,更关注 P99 等高百分位延迟
工程阻力
长上下文的 KV Cache 管理:如前所述,O(n²) 的注意力复杂度是核心瓶颈。工程上需要在内存占用和计算效率之间取得平衡。
动态工作负载的调度效率:Pre-fill/Decode 分离架构虽然理论上优势明显,但实际部署中需要处理:
- 请求在两个 Pool 之间的路由延迟
- KV Cache 跨节点传输的网络开销
- 负载均衡与故障恢复
成本控制:大规模推理的成本结构与传统 Web 服务截然不同。GPU 资源的弹性调度、Spot Instance 的利用、缓存策略的优化都是降低成本的关键杠杆。
4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)
a. 颠覆性反共识洞察 (Contrarian Hot Takes)
“不可能"只是懒惰的借口
节目反复强调 NVIDIA 内部的核心文化——“Speed of Light”(SOL)。这一理念源于 Jensen Huang 的第一性原理思维:
- 当团队报告"这不可能"时,正确的追问不是"为什么不可能”,而是"理论极限在哪里"
- 许多被视为"行业共识"的限制,实际上只是工程实现上的懒惰或惯性思维
- SOL 文化要求团队不断逼近物理极限,而非在"足够好"的舒适区止步
这一思维模式深刻影响了 NVIDIA 的产品开发节奏。举例而言,当业界普遍接受"LLM 推理成本无法显著降低"时,NVIDIA 通过架构创新(Pre-fill/Decode 分离)和软件优化(KV Cache 复用)实现了数量级的成本下降。
收购 Brev 的战略逻辑
NVIDIA 收购 Brev 看似奇怪——一家做 GPU 访问层的公司何以入得了硬件巨头的法眼?答案在于开发者体验战略:
- 硬件只是基础设施,开发者生态才是护城河
- Brev 解决的问题是"让 GPU 像云服务一样易用",这与 NVIDIA 的数据中心战略高度契合
- 通过将 Brev 技术整合进 DGX Spark 等产品,NVIDIA 实现了从硬件到软件的全栈覆盖
b. 商业模式与成本经济学 (Business Model & Unit Economics)
$0 Billion 市场战略
节目抛出一个令人印象深刻的概念——"$0 billion 市场"。这是 NVIDIA 的独特投资理念:
- 不只关注当前有收入的市场,而是投资于"未来可能不存在但值得存在"的市场
- 短期不追求盈利,愿意用现有盈利业务补贴前沿探索
- 核心逻辑:第一性原理思考——如果某项技术的长期价值清晰,即使当前没有市场,也值得投入
这种策略在 AI 基础设施领域尤为适用。举例而言,DGX Spark 的目标市场可能很小,但它是"人人可用的 AI 算力"这一愿景的载体,符合长期战略方向。
推理成本的结构性下降
随着 Dynamo 等调度层的成熟,推理成本正经历结构性下降:
- 架构优化:Pre-fill/Decode 分离提升硬件利用率 2-3 倍
- 缓存复用:KV Cache 复用减少重复计算 30-50%
- 动态调度:根据负载实时调整资源,避免闲置浪费
这些优化最终会传导至终端用户——更低的推理成本意味着更便宜的 AI 服务,推动 AI 应用的大规模普及。
5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)
a. 人才密度与招聘哲学 (Talent & Hiring)
追求自己感兴趣的项目
NVIDIA 内部鼓励员工追求自己感兴趣的项目,而非单纯执行上级指令。这一文化源于 Jensen 对"创新来自内在动机"的信念:
- 给予工程师充分的自主空间
- 允许用部分工作时间探索个人兴趣
- 将"做什么"的选择权下放给执行者
这种文化在大型科技公司中并不常见。多数公司强调"目标对齐"和"执行效率",但 NVIDIA 相信——最突破性的创新往往来自"意想不到"的方向。
人才筛选标准
虽然节目未详细展开招聘流程,但可以推断 NVIDIA 偏好:
- 深厚的技术功底(能在第一性原理层面理解问题)
- 强烈的内在动机(不是为了"职业发展"而工作)
- 跨领域的整合能力(硬件、软件、系统、算法多维度视角)
b. 硬核极客日常与轶事 (Geek Lore & Quirks)
Email 而非 Slack
一个有趣的细节:NVIDIA 内部使用 Email 而非 Slack 进行技术讨论。这一选择看似反直觉,实则有其道理:
- Email 适合长文深度讨论,Slack 容易陷入碎片化
- Email 有更好的搜索和归档能力,便于知识传承
- 避免"即时通讯"带来的"随时在线"压力
这与硅谷主流的"全实时"文化形成鲜明对比,体现了 NVIDIA 的独特节奏感。
GTC 大会的冲浪板营销
Nader 分享了 Brev 在 GTC 大会上的营销策略——用冲浪板和棕榈树装饰展位。这一创意在严肃的技术大会中显得格外醒目:
- 传递"GPU 访问可以如此简单"的产品理念
- 用视觉冲击打破参会者对"GPU 集群"的刻板印象
- 吸引开发者关注,而非单纯推销产品
这种"反向营销"策略与 NVIDIA 的"技术民主化"愿景高度契合——让 AI 基础设施不再是少数极客的专属领域。
Jensen 亲自参与 Codex
一个值得玩味的细节:CEO Jensen Huang 亲自使用 NVIDIA 内部的 Codex 系统。这意味着:
- 最高层对 AI 工具的实际应用,而非仅在战略层面讨论
- Codex 的可用性已达到"CEO 愿意使用"的标准
- 形成了自上而下的技术采用文化
6. 未来推演与终局思考 (Future Outlook & Endgame)
a 短期技术前瞻 (Next 12-18 Months)
Agent 运行时长的突破
节目预测,到 2026 年底,Agent 的持续运行时间可达 24 小时。这一突破依赖于:
- 更可靠的中间状态管理机制
- 更长的上下文窗口(200K+ Token)
- 更高效的工具调用链路
- 更强的故障恢复能力
24 小时运行时间意味着 Agent 可以覆盖几乎所有企业级工作场景——从早晨的日报生成到深夜的批量数据处理。
Dynamo 的生态整合
Dynamo 预计在接下来 18 个月内完成与主流推理框架的深度整合:
- 原生支持 vLLM、SGLang 的调度层接口
- 提供标准化的 Pre-fill/Decode 分离部署方案
- 集成监控、告警、成本分析等运维工具
硬件产品的普及
DGX Spark 和 RTX 6000 Pro 等产品将进入更多开发者和中小企业:
- “个人 AI 实验室"成为现实
- 本地部署与云端调用形成互补
- GPU 访问的民主化加速 AI 创新
b. 长期演进形态 (The Endgame)
“人人可用的 AI 基础设施”
NVIDIA 的终局愿景是让 AI 基础设施像水电一样普及:
- 无需理解底层硬件细节
- 按需使用、弹性付费
- 从"资源管理"转向"任务描述”
Brev 正是这一愿景的软件载体——通过抽象掉 GPU 调度的复杂性,让开发者专注于业务逻辑。
推理即服务(Inference as a Service)
Dynamo 的长期目标是成为"推理即服务"的调度层:
- 用户描述任务需求,系统自动选择最优资源配置
- 成本、质量、延迟的权衡由智能调度算法完成
- 开发者无需关心 Pre-fill/Decode 分离等底层细节
Agent 生态的成熟
当 Agent 能持续运行 24 小时、具备完整工具调用能力、部署成本显著下降时,我们将看到:
- AI 工程师的工作方式根本性转变——从"自己写代码"到"指导 Agent 写代码"
- 企业工作流程的大规模自动化
- “AI 原生应用"取代"AI 增强应用"成为主流
7. 原汁原味金句 (Based Quotes)
“When people say ‘it’s impossible,’ the right question is not ‘why is it impossible?’ but ‘what is the theoretical limit?’”
“当人们说’这不可能’时,正确的追问不是’为什么不可能’,而是’理论极限在哪里?’”
“We don’t just look at markets that exist today. We invest in markets that might not exist yet but should.”
“我们不仅关注当前存在的市场,还投资于那些可能尚不存在但应该存在的市场。”
“The goal is to make GPU access as simple as cloud services—no PhD required.”
“目标是让 GPU 访问像云服务一样简单——不需要博士学位。”
“Quality, Cost, Latency—pick two. That’s the fundamental tradeoff in LLM inference.”
“质量、成本、延迟——三者取其二。这就是 LLM 推理的基本权衡。”
“Email over Slack for technical discussions. Because depth beats speed.”
“技术讨论用 Email 而非 Slack。因为深度胜于速度。”
📺 播客地址
播客时长: 84分钟