原始标题: GPT 5.4 is here and we may actually have a new best model on the planet

发布日期: 2026-03-06 | 来源频道: @matthew_berman

📝 深度摘要

1. 对话背景与核心主题

OpenAI 正式发布 GPT 5.4,这是其最新的前沿旗舰模型。Matthew Berman 作为早期测试者,在过去一周内深度体验了这款模型,并将其与 Anthropic 的 Opus 4.6 以及 Google 的 Gemini 3.1 Pro 进行对比测评。视频核心主题在于验证 GPT 5.4 是否具备取代现有模型成为"OpenClaw 主模型"的综合实力,重点考察其编码能力、工具调用能力、计算机使用能力以及知识工作表现。

2. 核心干货概览 (Technical Takeaways & Stack)

类别 名称 核心用途 / 技术意义
模型版本/API GPT 5.4 Thinking / Pro OpenAI 最新发布的统一模型,整合推理、编码、工具调用能力
基准测试 OS World (75%) / Swebench Pro (56.8%) / GPQA (83%) 计算机使用能力首超 Opus 4.6,知识工作能力领先
上下文窗口 100万 Tokens 与 Claude 系列持平,支持超长文档处理
工具生态 Playwright / Gmail API / Calendar API 原生支持浏览器自动化和邮件/日历操作
定价 Thinking: .50/百万输入Tokens; Pro: 0/百万输入Tokens 比 GPT 5.2 略有上涨,但功能高度统一

3. 技术深度拆解与实战 SOP (Technical Deep Dive / SOP)

3.1 模型定位与架构演进

GPT 5.4 的发布标志着 OpenAI 完成了类似 Anthropic 在 Opus 4.6 上的战略整合。在 GPT 5.2 时代,OpenAI 将模型拆分为专注于不同场景的变体:GPT 5.2 侧重知识工作,GPT 5.3 Codeex 专注编程。这种分离设计导致开发者必须在多个模型间切换。GPT 5.4 的核心突破在于将两者的能力融合为一个单一的前沿模型,同时在速度、Token 效率和工具调用能力上实现优化。

3.2 基准测试深度分析

Matthew 重点展示了 OpenAI 官方博客中的对比图表:

  • OS World(计算机使用):GPT 5.4 Thinking 达到 75% 准确率,仅需 15 次工具调用即可达到峰值。相比之下,GPT 5.2 准确率不到 50%,且需要 42 次工具调用。Opus 4.6 得分为 72.7%。这意味着 GPT 5.4 在"高效完成任务"维度上首次超越 Claude。

  • Swebench Pro(编程能力):GPT 5.4 Thinking 得分 56.8%,超越 GPT 5.3 Codeex 的专用编程模型(54.2%)。这是业界首次出现通用模型在编程基准上超越专用模型的情况。

  • GPQA(知识工作):GPT 5.4 Thinking 达到 83%,比 Opus 4.6 的 78% 高出 5 分,比 GPT 5.3 Codeex 高出 13 分。

  • Frontier Math:GPT 5.4 同样表现优异,继续保持领先。

3.3 计算机使用能力实测

OpenAI 展示的 Demo 揭示了 GPT 5.4 在真实场景中的能力边界:

  • Gmail 自动化:模型能够自主导航 Gmail 界面、查看已发送邮件、标记星标、添加标签分类。整个过程以实时速度运行(视频中时间戳显示为真实耗时),无加速处理。

  • 批量数据录入:模型从 JSON 对象中提取数据并填入表单,响应速度极快。

  • 主题公园模拟游戏:仅凭一个轻量级提示词,GPT 5.4 生成了完整的模拟经营游戏,包含资金管理、游客满意度、清洁度、园区评级等复杂逻辑系统。

  • 2D 风格 RPG 游戏:生成的像素风格角色扮演游戏具备完整的战斗系统(攻击、结束回合等)。

3.4 OpenClaw 集成配置

Matthew 强调在 OpenClaw 中使用 GPT 5.4 需要遵循特定的提示词策略:

  • 独立提示词组:GPT 5.4 的提示词风格与 Claude/Opus 系列差异显著。建议为 GPT 5.4 和 Opus 分别维护独立的系统提示词配置。

  • 官方文档参考:OpenAI 已发布 GPT 5.4 专用提示词指南,Matthew 建议在 OpenClaw 中直接引用该文档或基于其重写提示词。

  • 模型选择:由于定价差异显著(Pro 版本是 Thinking 的 12 倍),Matthew 建议大多数用例使用 Thinking 版本,只有对推理能力有极致需求的场景才考虑 Pro。

4. 核心干货运用 (Prompts & Configuration)

4.1 提示词策略差异

GPT 5.4 采用了与 Claude 系列不同的提示词范式。Claude 模型擅长"理解模糊意图并自我推理",而 GPT 5.4 更依赖显式指令。Matthew 建议:

  • 为 GPT 5.4 编写更具体、更步骤化的提示词
  • 利用新增的"前置计划"功能:在执行前先展示完整计划,避免无效的 Token 消耗
  • 为不同模型维护独立的 System Prompt 文件

4.2 定价与成本优化

版本 输入价格(美元/百万Tokens) 输出价格(美元/百万Tokens)
GPT 5.2 .75 4
GPT 5.4 Thinking .50 5
GPT 5.4 Pro 0 80

Matthew 透露他已在 OpenClaw 中消耗了约 50 亿 Tokens 用于调优,这意味着一线模型的使用成本正在快速攀升。他建议通过输入缓存来降低重复性工作的成本。

5. 极客洞察与避坑指南 (Geek Insights & Boundary)

5.1 反直觉技术结论

  • 通用模型首次超越专用编程模型:Swebench Pro 的结果显示,GPT 5.4 Thinking (56.8%) 超越了 GPT 5.3 Codeex (54.2%)。这打破了"专用模型在垂直领域更强"的行业共识。

  • Pro 版本未必是首选:尽管 Pro 版本定价高出 12 倍,但 Matt Schumer 评测后表示"5.4 Thinking 对所有用例都足够甚至过剩"。这意味着大多数开发者无需盲目追求最高配。

  • 速度与效率的质变:OS World 基准显示,GPT 5.4 仅需 15 次工具调用即可达到 75% 准确率,而 GPT 5.2 需要 42 次。这意味着 Token 消耗量和执行时间都大幅下降。

5.2 已知问题与局限性

  • 前端审美落后于竞品:Matt Schumer 指出 GPT 5.4 的前端代码"品味"远不如 Opus 4.6 和 Gemini 3.1 Pro,生成的 UI 缺乏美感。

  • 缺乏现实世界上下文理解:测试中,GPT 5.行程未能考虑"4 规划的旅行春假人流高峰"等现实因素,需要用户手动补充更多上下文。

  • 任务中断问题:在 OpenClaw 中运行时会过早停止,未能完整执行长任务。Sam Altman 已确认将"立即修复"。

  • 网站反爬虫限制:尽管模型能力足够,但多数网站本身阻止自动化访问,这需要整个行业共同推进。

5.3 实战陷阱

  • 不要将 Claude 提示词直接迁移:GPT 5.4 对模糊指令的容忍度较低,需要更明确的步骤指引。
  • 避免在 Pro 版本上做日常任务:高昂的定价使得 Pro 版本仅适合对推理质量有极致要求的场景。
  • 不要忽略前置计划功能:该功能可显著减少无效的 Token 消耗和任务返工。

6. 金句 (Golden Quotes)

  • “GPT 5.4 就是把 GPT 5.2 和 GPT 5.3 Codeex 融合在一起的产物,一个兼具知识工作能力和顶级编程能力的全能模型。”
  • “OpenAI 在不到一年时间内从 GPT 4.5 的困局中走出,整个 5.0 系列模型现在既高效又快速,令人敬畏。”
  • “Matt Schumer 说它是有史以来最好的模型——虽然有点夸张,但它确实改变了游戏规则。”
  • “Frontier Intelligence 越来越贵,但这背后是模型能力的质的飞跃——你需要亲自测试才能理解。”
  • “在 OpenClaw 中使用 GPT 5.4 的关键在于:别用写给 Claude 的提示词,必须为它专门设计。”

📺 视频原片


视频ID: rvdUBieefR0