原始标题: Claude Opus 4.6 vs GPT-5.3 Codex

发布日期: 2026-02-06 | 来源频道: @GregIsenberg

📝 深度摘要

1. 对话背景与核心主题

Greg Isenberg作为科技领域知名博主,对比评测了Anthropic发布的Claude Opus 4.6与OpenAI发布的GPT-5.3 Codex两款AI编程工具。Anthropic发布Claude Opus 4.6支持Agent Teams多代理并行工作,强调自主规划、少提问;OpenAI随后发布GPT-5.3 Codex定位交互式协作者,支持实时调整方向。两者代表AI编程领域两种哲学:委托式工作流vs结对编程式工作流。Codex在3分47秒内完成预测市场原型,测试全部通过;Opus 4.6消耗超过10万token进行多角度研究后开始构建。选择取决于用户工作方法论,无绝对优劣。

核心干货概览 (Key Takeaways)

维度 核心内容 / 动态 价值意义 / 影响程度
技术/工具 Claude Opus 4.6 新增 Agent Teams 多智能体编排功能,支持并行启动多个专业代理协同工作 GPT-5.3 Codex 则侧重交互式协作与任务执行中的实时调整(mid-execution steering),两者形成哲学层面的分化
战略/逻辑 Opus 4.6 采用「先理解后执行」模式,强调深度规划、长时运行、少向人类提问;Codex 采用「快速决策、迭代执行」模式,类似结对编程 这种分化反映了 AI 编程领域两种截然不同的工程方法论:自主代理 vs 交互式协作工具
量化指标 Opus 4.6 上下文窗口:100 万 token;Codex 上下文窗口:约 200,000 token Opus 4.6 每个代理消耗超过 25,000 token,多代理并行总计超过 100,000 token;Codex 在 SWE-bench Pro、Terminal Bench 等基准测试中胜出
实测结果 Codex 在 3 分 47 秒内完成 Poly Market 竞品原型构建,包含 LMSR 做市商数学引擎、REST API 路由、响应式前端,测试套件 10/10 通过 Opus 4.6 通过 Agent Teams 并行执行技术架构研究、预测市场研究、UX 设计研究、测试策略研究后开始构建

深度逻辑与实操拆解 (Implementation Deep Dive)

底层矛盾与背景

Anthropic 于今日发布 Claude Opus 4.6,OpenAI 在约 18 分钟后随即发布 GPT-5.3 Codex。两款模型代表了 AI 编程助手领域的两条技术路线:Opus 4.6 强调自主代理(autonomous agent)能力,可同时调度多个专业化代理并行工作;Codex 强调交互式协作(interactive collaborator)能力,允许开发者在代码执行过程中实时调整方向。这一分化源于如何定义「AI 编程」这一核心问题的根本分歧。

核心策略推导

Opus 4.6 的设计哲学

Morgan Linton 在 Hacker News 上读到一篇评论,将两款模型的差异形容为「真正的工程师和组织在哲学层面分化」的缩影:Opus 4.6 定位为「更自主、更善于思考的系统,深谋远虑,运行时间更长,向人类请求更少」—— 这是一种「委托式」工作流,用户将整块工作交给代理团队,最后审查结果即可。

Codex 的设计哲学

Codex 的定位则是「交互式协作者」,用户在整个执行过程中持续参与、随时调整方向。Morgan 比喻为「你的伙伴在编程,你可以随时说『嘿,等等,你为什么要这样做?』然后停止、重启、原地修复」。这是一种「结对编程式」工作流,深度融入人类开发者的实时反馈。

适用场景分化

  • Opus 4.6 优势场景:大型代码库理解、架构敏感的代码重构、系统行为解释、复杂项目中的多代理并行任务分解、对幻觉识别能力要求较高的 vibe coder(非技术背景的 AI 编程初学者)
  • Codex 优势场景:端到端应用生成、需要频繁调整需求的快速原型开发、基准测试表现(SWE-bench Pro、Terminal Bench 得分更高)、生产级代码质量

执行 SOP / 操作步骤

确保运行 Opus 4.6

  1. 执行 npm updateclaude update 检查更新
  2. 确认版本号为 2.1.x(当前为 2.1.32),若显示 1.x 则为旧版本
  3. 编辑 ~/.claude/settings.json,配置模型为 claude-opus-4-6 或直接设置 "model": "opus"(因 46 为最新模型,简写即可生效)

启用 Agent Teams(实验性功能)

settings.json 中添加:

{
  "claudeCode": {
    "experimental": {
      "agentTeams": true
    }
  }
}

启用后,可通过自然语言指示 Opus 4.6 创建多个专业代理团队,例如「创建一个四人团队:一人负责技术架构,一人负责理解预测市场机制,一人负责 UX,一人负责编写测试」。

使用 Adaptive Thinking(API 级别)

在调用 Anthropic API 时,可通过 effort 参数控制模型思考深度:

  • effort: "max":无限制思考深度,仅 Opus 4.6 支持
  • 在其他模型上使用 max 会返回错误
  • 若现有代码使用 Opus 4.5 并设置 effort: max 报错,只需将模型版本升级至 4.6

终端分屏配置(可选)

若使用 Warp 等终端工具并希望代理在独立分屏中运行:

  1. 安装 t-max:brew install t-m
  2. settings.json 中设置 "agentMode": "split-panes"(默认为 "auto",即进程内运行)

Codex 使用要点

Codex 无需特殊配置,在 OpenAI 桌面应用中直接可用。Morgan 建议如果 OpenAI 需要演示,他们会选择在桌面应用中展示 Codex。

细节支撑

Poly Market 竞品构建实测

Codex 任务指令

Build a competitive Poly Market. Think deeply about technical architecture, understanding Poly Market and the ins and outs of prediction markets, good clean UX, make sure it builds really good tests to make sure everything works.

Opus 4.6 任务指令

Build a competitor to Poly Market. Create an agent team to explore this from different angles: one teammate on technical architecture, one on understanding Poly Market and the ins and outs of prediction markets, one on UX, and one that just works on building really good tests to make sure everything works.

Codex 实测结果

  • 耗时:3 分 47 秒
  • 构建内容:LMSR 做市商数学引擎(含单位测试)、引擎行为测试套件、API 集成测试套件、REST API 路由、响应式前端
  • 测试结果:10/10 通过
  • 执行功能:创建预测市场、设定 resolver(如 CoinMarketCap)、买入 YES/NO 份额、余额管理

Opus 4.6 实测结果

  • 启动 4 个并行代理分别执行技术架构研究、预测市场研究、UX 设计研究、测试策略研究
  • 每个代理消耗超过 25,000 token
  • 总计消耗超过 100,000 token
  • 代理完成研究后开始编写 package.json 进入构建阶段
  • Morgan 拥有 Claude Max 计划(每月 $200),可支持大规模 token 消耗

核心执行资产 (Tactical Assets)

Prompt / 指令集还原

Opus 4.6 多代理团队启动指令模板

Create an agent team to build [项目名称]. 
Team composition:
- Agent 1: [专业方向 1,如 technical architecture]
- Agent 2: [专业方向 2,如 domain research]
- Agent 3: [专业方向 3,如 UX design]
- Agent 4: [专业方向 4,如 testing and QA]

Each agent should [具体任务要求]. 
Coordinate them in parallel. Don't ask me for permission - just execute.

Codex 任务启动指令模板

Build [项目名称]. 
Think deeply about [关键维度 1], [关键维度 2], and [关键维度 3].
Make sure to build really good tests to verify everything works.
Start coding immediately.

工具链配置

Anthropic Claude Code 环境

  • CLI 工具:claude(通过 npm 安装)
  • 配置文件路径:~/.claude/settings.json
  • 模型版本确认命令:claude -v 或在 CLI 中输入 /model
  • 推荐终端配置:Warp + t-max(分屏模式)

OpenAI Codex 环境

  • 桌面应用:ChatGPT Mac 版
  • 使用方式:直接在桌面应用中对话即可
  • 无需额外配置

专家洞察与风险边界 (Insights & Boundaries)

反直觉/非共识结论

  1. 「没有绝对赢家」:Morgan 明确表示「这取决于你的工作方法论」。两款模型代表的是两种截然不同的 AI 编程哲学,而非简单的性能优劣之分。

  2. Opus 4.6 的 token 消耗是特性而非缺陷:多代理架构确实导致每个代理消耗 25,000+ token,总量轻易超过 100,000,但这正是「自主代理」设计思路的体现——用更多计算资源换取更少的用户干预。

  3. Codex 更适合初学者是反直觉的:通常认为「更少干预」对初学者更友好,但 Morgan 指出 vibe coder 可能不具备判断 Codex 何时「过度自信并锁定错误假设」的能力,因此 Opus 4.6 的「先理解再行动」模式反而更适合非技术背景用户。

  4. 上下文窗口差异的实际影响被高估:虽然 Opus 4.6 拥有 100 万 token 上下文(vs Codex 约 20 万),但 Codex 优化了「决定什么保留在工作内存中」的能力,实际任务中并非总是需要完整上下文。

局限性与避坑指南

Opus 4.6 局限

  • 过度分析:在大上下文场景下可能犹豫不决,当需求不明确时会停滞
  • 执行不完整:可能在未完成全量执行时就停止
  • Token 成本:多代理模式下 token 消耗极快,月度 Max 计划($200)用户需关注限额
  • Agent Teams 需显式启用:默认关闭,许多用户未注意到实验性功能的配置步骤

Codex 局限

  • 过度自信:可能过早锁定有缺陷的假设,虽然可随时干预修正,但需要用户具备识别能力
  • 中间调整成本:在需要频繁改变方向的场景下,反复「停车-重启-修正」的交互成本可能高于预期
  • 上下文窗口较小:对于超大型代码库场景可能不如 Opus 4.6
  • 基准测试≠实际表现:SWE-bench Pro 得分高不代表在真实复杂业务场景中必胜

金句 (Golden Quotes)

  • 「Opus 4.6 更像是资深审查员或 Staff Engineer,而 GPT-5.3 Codex 更像是你的创始工程师——一个不知疲倦、想立即出货的伙伴。」(Morgan Linton)
  • 「Claude 会问『我们应该做这个吗?』,而 Codex 会问『我们多快能把这东西做出来?』」(Morgan Linton)
  • 「这就是真正的工程师和组织在哲学层面上的分化——有人想要紧密的人类循环控制,有人想要把整块工作委托出去然后审查结果。」(Hacker News 用户评论,被 Morgan 引用)
  • 「如果你用 Opus 4.6,你可以同时派四个代理出去干活,别来烦你,然后信任它们会做出好东西。」(Morgan Linton)
  • 「Codex 是你的合作者,你可以看着它编程,它做错了你可以随时说『嘿,等等,你为什么这么做?』然后停下来,重新开始。」(Morgan Linton)

📺 视频原片


视频ID: gmSnQPzoYHA