原始标题: Claude Opus 4.6 vs GPT-5.3 Codex

发布日期: 2026-02-06 | 来源频道: @GregIsenberg

📝 深度摘要

对话背景与核心主题

这是AI编程助手领域的重磅对决——Anthropic刚刚发布Claude Opus 4.6,仅18分钟后OpenAI就推出了GPT-5.3 Codex。Greg Isenberg邀请了他长期的技术顾问Morgan Linton(前Sonos高管、资深工程师和AI投资人)进行一场真刀真枪的对比测试:让两个模型各自重建Poly Market(一个价值数十亿美元的预测市场应用)。

核心逻辑拆解

两大模型的哲学分歧:

  • Claude Opus 4.6:更像一位资深架构师,会先深入理解整个系统再动手。它拥有100万token的超大上下文窗口,支持Agent Teams(智能体团队)功能,能同时调度多个子代理并行工作。强调"先想清楚再执行"。

  • GPT-5.3 Codex:更像一位激情满满的全栈工程师,快速动手、边做边改。它专注于交互式协作,支持执行过程中的实时调整(mid-execution steering),追求"快速迭代、快速交付"。

Morgan引用了Hacker News上的一段精彩评价:“GPT-5.3和Opus 4.6在哲学上正在分化,就像真实的工程团队一样——Codex是交互式协作者,你需要实时引导它;Opus是自主代理,它规划得更深、执行得更久、很少打扰你。”

方法论与工具箱

Opus 4.6配置要点:

  • 运行npm update确保版本在2.1.32以上
  • settings.json中设置"model": "claude-opus-4-6"
  • 启用Agent Teams:添加"claudeCodeExperimentalAgentTeams": 1
  • 使用API时可设置adaptive thinking的effort level(max/medium/low)
  • 若使用Warp终端并想要分屏显示Agent:安装t-max并设置split panes

Codeex 5.3配置要点:

  • 在OpenAI桌面应用中体验最佳
  • 支持实时干预执行过程
  • 适合在执行中随时调整方向

关键洞察与辩论

性能对比:

  • Codex在SWE-bench Pro、Terminal Bench等编码基准测试中得分略高
  • Opus在大规模代码理解、架构敏感性重构、解释系统行为方面更强
  • 对比结果取决于你的工作方法论:想要紧密的人类控制 loop,还是想把整块工作委托出去

失败模式:

  • Opus 4.6可能过度分析,在需求不明确时犹豫不决
  • Codex可能过于自信,过早锁定一个错误假设(但好在你随时可以把它拉回正轨)

实际演示:

  • Codex仅用3分47秒就搭建出一个可运行的Poly Market竞品原型,包含完整的前后端和测试套件,10个测试全部通过
  • Opus启动了4个Agent并行研究(技术架构、预测市场机制、UX设计、测试策略),消耗超过10万token,最终也完成了构建

适用人群:

  • 新手 vibe coder(无技术背景的AI编程爱好者):Codex可能更友好,因为它能让你实时干预
  • 大型代码库团队:Opus的超大上下文窗口和Agent Teams是突破性功能
  • 两者并非互斥,很多团队会根据任务性质选择使用不同模型

金句

“Codex是交互式协作者,你需要实时引导它;Opus是自主代理,它规划得更深、执行得更久、很少打扰你。”

“Claude像一位资深审查员或Staff Engineer,GPT-5.3像你的创始工程师。”

“Codex问’我们能做这个吗’,Opus问’我们应该做这个吗’——Codex问’这能多快出货’。”

“用Agent Teams,token消耗会乘以Agent数量。这对Anthropic投资者来说是好事。”


📺 视频原片


视频时长: 约30分钟 | 视频ID: gmSnQPzoYHA