NVIDIA 工程师谈行星级 AI 推理与"光速"优化——Nader Khalil (Brev), Kyle Kranen (Dynamo)

NVIDIA 工程师深度解读行星级 AI 推理系统 Dynamo:如何在数据中心规模上实现高效推理。Brev 被收购后成为 NVIDIA 开发者体验战略核心,Jensen 倡导的"光速"文化要求团队追问理论极限。Dynamo 通过 Pre-fill/Decode 分离、KV Cache 优化、动态资源调度等技术突破单副本扩展瓶颈。解码速度取决于硬件:DGX Spark 可承担计算密集的预填充,Mac 完成解码。RTX 6000 Pro 96GB VRAM 适合本地运行大模型。AI Agent 已在 NVIDIA 内部大规模部署,Codex 数万员工使用,最长任务可运行数小时。2025 是编程 Agent 爆发年,2026 将是企业知识工作 Agent 元年。

March 10, 2026 · 13 min · 6064 words · @latent-space