Cursor 第三时代：云端智能体

原始标题: Cursor’s Third Era: Cloud Agents

发布日期: 2026-03-06 | 来源频道: @latent-space

📝 深度摘要

1. 核心技术主旨 (The TL;DR)

本期节目揭示了 AI 编码助手的第三次范式转移：从最早的 TAP（Tab autocomplete）补全时代，进化到 Agent 驱动代码生成，最终演进到云端全功能虚拟机（Cloud Agents）时代。Cursor 的核心突破在于赋予模型「一台完整的电脑」——而非仅仅一个代码编辑器——让它能够自主启动开发服务器、运行端到端测试、生成可交互的演示视频，甚至调用其他 Agent 形成协作网络。这不仅仅是工具的升级，而是软件开发工作流的根本重构：当模型能够像人类一样操作完整的桌面环境时，代码审查的瓶颈从「如何写代码」转移到「如何验证和合并代码」，而视频化的反馈机制正在重新定义人机协作的界面。

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)

嘉宾身份： Sam McVeety，Cursor 联合创始人兼 CTO
核心产品/架构： Cursor 是 AI 编程赛道的绝对领头羊，从 VS Code fork 起步，如今已构建起覆盖 IDE、Web/Desktop 双端、云端 Agent 的完整产品矩阵。其技术栈核心在于：基于 Claude Sonnet/Opus/Codex 系列模型的能力调度、自研的 Tab 补全算法、以及本次发布的 Cloud Agents 云虚拟机基础设施。Cursor 在 AI 编程助手市场的占有率已形成显著壁垒，并持续通过 MCP（Model Context Protocol）生态扩展集成边界。

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)

a. 系统架构与硬件交互 (Infra & System Design)

VM 架构选择： Cloud Agents 并非简单的远程开发环境，而是基于 Linux VM 的全功能沙箱。Agent 拥有独立的文件系统、终端、会话状态，可以执行任何本地开发环境能做的事。默认创建方式为 snapshotting——运行一系列安装命令后对文件系统做快照，形成可复制的 VM 模板。这与纯 Docker file 方案不同，能保留完整的运行时状态包括浏览器标签页等。
远程桌面协议： 采用 VNC 风格的远程桌面访问，用户可以直接在浏览器中操作 Agent 的桌面环境，包括 hover、click、type 等交互。视频录制与桌面状态实时同步，支持缩放和聚焦，类似于 Vimeo 的 chapters 功能，可在视频中快速跳转。
端口转发与本地预览（已下架）： 早期原型中曾实现类似 ngrok 的本地端口转发，用户可在本地浏览器访问 VM 中运行的 localhost 服务。但最终因「远程桌面延迟已足够低且更通用」而被砍掉。
持久化与休眠机制： 团队正在探索类似「挂起内存并恢复」的模式——用户离开后 VM 状态可以保留数天，回来时重新 hydrate 继续工作。这需要解决敏感凭证存储的问题：用户不愿将 email 等凭证存入 secret store，更希望凭据随 image 持久化但以安全方式管理。
MCP 集成架构： 随 Cloud Agents 同步推出了对 MCP 的完整支持。Datadog MCP 是内部最爱——Agent 可直接调用 Datadog API 拉取日志、自动诊断云 Agent 故障，将原本需要手动遍历日志的调试时间压缩到单次 Agent 调用。部分 MCP 支持团队级 auth（管理员配置），部分需用户自行授权。

b. AI 范式与工作流重构 (AI Paradigms & Workflows)

三大支柱（Three Pillars）：
- Pillar 1 - 模型自行测试： Agent 不仅生成代码，还会启动 dev server、运行端到端测试、验证功能是否正常后才返回。默认行为经过 calibrated prompting——简单 copy change 不测试，复杂功能（如涉及 UI 变更、后端逻辑）自动测试。用户可通过 agents.md 自定义规则，也可使用 /no-test 跳过。
- Pillar 2 - 视频化反馈： Agent 完成任务后生成 20-30 秒的演示视频，展示实际运行效果。这解决了代码审查的新瓶颈——面对 700 行 diff 无从下手，但看一段视频能快速判断方向对不对。视频有时会构建 Storybook 风格的 gallery 展示组件。视频还支持 TikTok 风格的结尾 branding。
- Pillar 3 - 全 VM 远程控制： 用户可随时 VNC 介入自己操作、hover 元素、输入命令。这不是视频的替代品，而是补充——有些场景需要「玩一玩」才能感受交互细节。
Bug 复现工作流（slash repro）： 专门为 bug fix 设计的命令。Agent 会先复现 bug（自行打开 DevTools、写入 5000 个字符触发限制场景）、录制复现视频、修复 bug、录制修复后的验证视频。这将原本「本地复现 + 人工确认」的流程压缩到 90 秒内完成。
子智能体（Sub-agents）架构： 主 Agent 可以自主决定何时 spawn 子 Agent 来并行处理子任务。例如 Explore 子 Agent 可并行扫描代码库的不同目录。子 Agent 是一个「天然的上下文压缩边界」——子 Agent 的工作结果被总结压缩后传递给父 Agent，避免全局 context 爆炸。子 Agent 同样支持模型路由：主 Agent 用 Opus，但 explore 场景可能自动切换到更快的模型以获取快速响应。
并行 Agent 与 Best Event： 并行运行多个 Agent 处理同一任务（类似 “swarm” 或 “parallel agents”），每个 Agent 有独立 VM，不会出现端口冲突。对比本地 work trees 的混乱，Cloud Agent 的并行化更干净。Best Event 是并行的一种——同一 prompt 跑多个模型，返回多条 diff 或多条视频，人工选择最优路径继续迭代。
模型路由与 Multi-Model Ensemble： 团队做过一个有趣实验（2024 年，未最终发货）：用多个不同模型提供商的模型作为 base layer，通过一个 synthesizer Agent 做 LM judge 甚至写代码融合各模型的输出，发现跨模型提供商组合的协同效果优于统一底层模型。Andrej Karpathy 称之为 “council”（议会）模式。Cursor 内部有 /council 命令实现类似功能。
模型选择与 Auto 模式： Cloud Agents 底部模型选择器目前固定使用 Codex 5.3，但团队计划推出类似 Desktop App 的 Auto 模式——由系统根据任务类型自动路由到最优模型。这是对「模型江湖」快速变化Meta 的回应：用户不应手动切换模型，而应由平台根据大量流量和使用数据做出最优选择。

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)

自动化测试覆盖： Cloud Agents 的核心评估指标是「Agent 能否在无人工干预情况下完成端到端闭环」。Sonar 4.5 是首个能完全基于像素自动化操作的模型里程碑，Opus 4.5/4.6 和 Codex 5.3 则带来了进一步的 autonomy 等级提升。
Reward Hacking 与 TDD 模式： 在 slash repro 流程中，Agent 先写一个会失败的测试（证明 bug 存在），再写让测试通过的代码——这是经典的 red-green TDD 模式，被用于防止 reward hacking。
视频评估（Evals）： 通过 Best Event 跑出来的多个视频可被快速人工评估，大幅降低了评估成本——原本 4 个 700 行 diff 需要逐行 review，现在 4 个 20 秒视频扫一眼即可判断方向。
主要工程阻力：
- 上下文膨胀： 随着 Agent 工作时间变长、调用工具变多，上下文窗口面临压力。子 Agent 架构是目前选用的压缩边界。
- 模型判断何时 repro： 并非所有 bug 都值得复现，模型在「何时自动触发 repro」的校准上尚未做到最优。保守策略是仅在模型高度自信时触发，否则通过 slash repro 手动触发。
- 部署到生产的 Pipeline： 代码生成变得极其容易，但从「我有一个 PR」到「我准备好合并」仍然困难。Cursor 在探索与 Graphite 等工具的更紧密集成。

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)

a. 颠覆性反共识洞察 (Contrarian Hot Takes)

「代码审查已死？」 一派观点认为既然视频能展示完整功能，代码审查不再必要——「Just show me the video」。Sam 的立场更务实：视频是 alignment tool（对齐工具），能快速确认方向，但真正的代码 review 仍有价值，尤其对于 BugBot 级别的高置信度自动化审查。
「TAP（Tab补全）已过气」 —— Sam 自曝已很少使用 TAP 功能，内部数据显示 Agent 工作流已显著超过 TAP 使用量。「Hand coding」（手敲代码）正在变成一种带有怀旧色彩的「boomer」行为。
「文件编辑器在 Web 端是反模式」 —— Cursor Web 端有意不提供独立的文件编辑 UI，强制用户通过 Agent 交互而非手工编辑文件。团队认为这种限制能驱动用户接受新的委托式工作流。但 Sam 也承认这是有争议的设计决策。

b. 商业模式与成本经济学 (Business Model & Unit Economics)

PLG（产品驱动增长）路径： Cloud Agents 的采用曲线与早期 Cursor 增长类似——个人开发者先在周末 side project 中发现并爱上它，然后带回公司。Cursor 不做传统的企业销售cold call，而是依赖产品口碑和社区传播。
团队规模化挑战： 10 人创业公司现在开始需要过去 10000 人公司才需要的 devex 和 pipeline 基础设施——stacked diffs、merge queues、自动化回归检测等。Cursor 正在将这类企业级能力下沉到小团队。
定价策略： Auto 模式（智能模型路由）不是免费的，有不同定价层。核心思路是「平台帮你选模型」——因为 Cursor 有流量和内部 taste 数据，知道何时该用 Opus、何时该用 Codex。
Buy vs. Build： 关于是否要做自己的 hosting（类似 Vercel 的 CursorApps.com），Sam 的判断是：当前优先级是解决「代码生成到生产」的 pipeline 瓶颈，而非自建部署平台。Datadog MCP 的存在说明通过集成第三方工具链是更务实的选择。

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)

a. 人才密度与招聘哲学 (Talent & Hiring)

自下而上的创新文化： 大量内部 slash 命令来自个人需求——BugBot、slash council、slash repro 等都是创始人或工程师为自己写的，随后发现团队其他人也需要。Marketplace 的 MCP 配置能力也来自「Sam 的 Cursor 应该有 Datadog MCP」这种个人需求驱动。
小团队裂变速度： 5 人阶段的 Cursor 就已经能产出后来成为核心功能的技术demo。团队相信小规模、高人才密度的团队在 AI 时代比大团队更有优势。

b. 硬核极客日常与轶事 (Geek Lore & Quirks)

AutoTab 起源： Cloud Agents 的核心技术路线继承自 2023 年收购的 AutoTab 团队。AutoTab 最初做浏览器自动化，最终演进为「给模型一个盒子（a brain in a box）」的哲学——消除所有人为限制，让模型自行决定需要什么工具。
BugBot 的威信： 内部形成了不成文的规矩——「不要忽略 BugBot 的 comment」。因为有至少 2-3 次「合并后发现 bug，回头发现 BugBot 当时已经指出」的案例，现在团队成员会等 BugBot 完成审查才合并。
Slack 即 IDE： Cursor 内部大量开发发生在 Slack 中——在 issue channel @ Cursor 触发 Cloud Agent，其他人可以 follow up、添加上下文、tag 更多人。Agent 甚至可以调用 Slack API 进行 blame 和 tag 人。设计师、销售、法务都可以在同一个 Slack thread 中与 Agent 协作。
「视频优先」的内部推广： 最初团队对「生成视频」有怀疑，但看到实际使用效果后态度转变。视频不仅用于 demo，也成为模型对比评估（Best Event）的核心输出形式。
被砍掉的功能： 峰值时期的产品功能比现在多很多，包括本地端口转发、Files app 等。最终因「远程桌面足够好」或「限制 UX 能驱动新工作流」等原因被 unship。团队态度开放：用户呼声高可能会 reship。
团队彩蛋： 视频中的 chapters 功能是 Alexi 等人做的；壁纸是 Rio 选的；品牌cursor细节体现公司对设计的执着；下载视频会自动加上 Cursor 风格的 TikTok 结尾。

6. 未来推演与终局思考 (Future Outlook & Endgame)

a 短期技术前瞻 (Next 12-18 Months)

VM 规格可选化： 即将推出 L、XXL 等 VM 规格选择，让用户像选 EC2 实例一样选择算力。
模型路由全面化： Cloud Agents 将支持 Auto 模式，根据任务特征自动选择最优模型，类似 Desktop App 的模型路由逻辑。
MCP 生态爆发： Datadog MCP 只是开始。随着更多 MCP 被社区创建，Agent 能调用的外部工具链将指数级扩展。
Stack Diffs 与 Merge Queue 下沉： 小团队也将用上过去大厂才需要的 stacked diffs、merge queues、自动化回归检测——因为代码生成速度已经超过人工审查能力。
视频+代码的双层 Review 范式： 人类在代码审查上的角色将从「逐行检查」转向「看视频确认方向 + 必要时深入代码」的分层模式。

b. 长期演进形态 (The Endgame)

全栈 Cursor 的设想： Sam 抛出了「CursorApps.com」的可能性——Cursor 自有托管平台，类 Vercel 模式。但当前优先级不在这里。
协作界面的迁移： IDE 正在「移动」到 Slack 等协作工具中。未来的开发流程可能是：Slack thread 中发起任务 → Agent 完成 → 人类通过视频 review → 决定是否 merge。代码编辑本身变成最不重要的环节。
Agent Lab vs. Model Lab 的融合： Sam 的 thesis 是——每个 Agent Lab 最终都需要一个路由器（router），因为普通用户无法每天跟踪模型排行榜变化。「Put me on Cursor Auto」将成为主流。Agent Lab 会变得像 Model Lab 一样 GPU-intensive，但核心差异在于工作流定义和用户体验。
「脑在盒子」终局： 长期愿景是模型拥有与人类完全等价的计算环境——一台可以休眠、恢复、持久化的云端电脑。人类只需要做最高层次的决策（要不要合并、UX 是否满意），其余全部委托。

7. 原汁原味金句 (Based Quotes)

“We think that over the coming months, the big unlock is not going to be one person with a model getting more done, like the water flowing faster. It will be making the pipe much wider.”

翻译：未来几个月的最大突破不是让单个人用模型干得更快（像水流更急），而是把管道变宽——即通过并行 Agent 和 Agent swarm 实现同一时间内产出更多。

“If you put yourself in the model shoes and you were seeing tokens stream by and all you could do was site read code and spit out tokens and hope that you had done the right thing. No chance.”

翻译：把自己代入模型的视角——你看到的只是 token 流动，能做的只是读代码、吐 token，然后祈祷自己搞对了。这完全不可能（做好）。

“We ended up very sort of AGI-pilled in the sense that just give the model pixels, give it a box. A brain in a box is what you want.”

翻译：我们最终变得非常「AGI 派」——给模型像素，给它一个盒子。一个「装在盒子里的脑」就是你想要的。

“The bottleneck should be the intelligence. And given how smart models are today, that’s a very far-out bottleneck.”

翻译：瓶颈应该是「智能本身」。而考虑到今天模型已经有多聪明，这是一个非常遥远的瓶颈了。

“Code review is one of these new bottlenecks that crop up.”

翻译：代码审查是新涌现的瓶颈之一——当 Agent 能端到端写大量代码时，如何 review 变成了新的问题。

“What people have told me is like, right about Sonar 4.5 is when this started being good enough to just automate fully by pixel.”

翻译：人们告诉我，大约在 Sonar 4.5 时期，模型才开始足够好到可以完全基于像素实现自动化。

“We’re giving it a task and it goes off and does a larger unit of work. And I can lean back a little bit more and operate at that higher level of abstraction.”

翻译：我们给它一个任务，它就去完成一个更大的工作单元。我可以往后靠一点，在更高层次抽象上操作。

“You scale up this parallelism and how much code you generate. 10-person startups become need the dev-ex and pipelines that a 10,000-person company used to need.”

翻译：当并行化程度提升、代码生成量增加，10 人创业公司开始需要过去 10000 人公司才需要的开发体验和 pipeline。

“The video is often alignment. And then I often still want to go through a code review process.”

翻译：视频通常是对齐工具（让大家对任务方向达成共识）。但我仍然经常想走一遍代码审查流程。

“People like don’t really edit files, hand code anymore. And so we want to build for where that’s going and not where it’s been.”

翻译：人们已经不太手动敲代码了。所以我们要为未来的方向而构建，而不是为过去的形态。

📺 播客地址

播客时长: 67分钟

1. 核心技术主旨 (The TL;DR)#

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)#

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)#

a. 系统架构与硬件交互 (Infra & System Design)#

b. AI 范式与工作流重构 (AI Paradigms & Workflows)#

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)#

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)#

a. 颠覆性反共识洞察 (Contrarian Hot Takes)#

b. 商业模式与成本经济学 (Business Model & Unit Economics)#

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)#

a. 人才密度与招聘哲学 (Talent & Hiring)#

b. 硬核极客日常与轶事 (Geek Lore & Quirks)#

6. 未来推演与终局思考 (Future Outlook & Endgame)#

a 短期技术前瞻 (Next 12-18 Months)#

b. 长期演进形态 (The Endgame)#

7. 原汁原味金句 (Based Quotes)#