berman_GPT_5_3_Codeex_发布_编码能力的质的飞跃

原始标题: GPT 5.3 is here and it’s INSANE for Coding

发布日期: 2026-02-06 | 来源频道: @matthew_berman

📝 深度摘要

对话背景与核心主题

OpenAI 与 Anthropic 之间的竞争日趋白热化。Anthropic 发布 Opus 4.6 后不久，OpenAI 随即推出 GPT 5.3 Codeex，两者发布时间仅相隔几分钟。这场激烈角逐的核心战场正是 AI 编程领域，各大前沿实验室纷纷将资源投入到长周期任务、Agent、Sub-Agent 以及 Agent 团队的开发中。

核心逻辑拆解

GPT 5.3 Codeex 实现了多项突破性改进。首先是速度提升——比上一代快 25%，这一提升并非通过加速推理实现，而是通过大幅减少输出 token 数量达成：从 5.2 的 91000 个 token 降至 43000 个，却能达到相同甚至更好的效果。在 SWE-Bench Pro 基准测试中，5.3 全面超越 5.2；在 Terminal Bench 准确率上也有超过 10 分的显著提升。

方法论与工具箱

5.3 Codeex 实现了从"编写和审查代码的 Agent"向"可完成开发者能在电脑上做任何事"的跨越。它能够在任务执行中途接受引导和调整，这在此前任何模型中都未曾见过。更令人惊叹的是，这个版本在自身开发过程中发挥了重要作用——使用早期版本调试训练、管理部署、诊断测试结果。模型展示了对不完整提示的理解能力，能够为新手程序员做出合理的默认决策。

关键洞察与辩论

在电脑使用能力方面，5.3 Codeex 在 OS World 基准测试中得分达到 64.7，几乎是 5.2 的两倍。该测试衡量模型理解界面元素、点击执行任务的能力。视频中展示了两个完全自主生成的游戏——赛车游戏和潜水游戏，仅需简短提示即可运行数百万 token。5.3 还能处理 PDF、Excel、PowerPoint 等办公文件，直接对标 Anthropic 的 Claude Code。创作者指出 OpenAI 未在基准测试中包含竞争对手数据，这一点值得批评。

金句

“这是近乎自主的自我改进——人类提示模型来编写代码，但最终是前一版本创造下一版本。”
“它从一个只能写代码和审查代码的 Agent，变成了一个几乎可以完成开发者和专业人士能在电脑上做的任何事的 Agent。”
“当你的代码输出量不断增加时，Grapile 是唯一能帮你跟上并保持理智的方式。”

📺 视频原片

视频时长: 9 分钟 | 视频ID: QgaVA9ldrrM

对话背景与核心主题#

核心逻辑拆解#

方法论与工具箱#

关键洞察与辩论#

金句#

对话背景与核心主题

核心逻辑拆解

方法论与工具箱

关键洞察与辩论

金句