原始标题: GPT 5.4 is here and we may actually have a new best model on the planet

发布日期: 2026-03-06 | 来源频道: @matthew_berman

📝 深度摘要

1. 对话背景与核心主题

OpenAI 正式发布 GPT 5.4，这是其最新的前沿旗舰模型。Matthew Berman 作为早期测试者，在过去一周内深度体验了这款模型，并将其与 Anthropic 的 Opus 4.6 以及 Google 的 Gemini 3.1 Pro 进行对比测评。视频核心主题在于验证 GPT 5.4 是否具备取代现有模型成为"OpenClaw 主模型"的综合实力，重点考察其编码能力、工具调用能力、计算机使用能力以及知识工作表现。

2. 核心干货概览 (Technical Takeaways & Stack)

类别	名称	核心用途 / 技术意义
模型版本/API	GPT 5.4 Thinking / Pro	OpenAI 最新发布的统一模型，整合推理、编码、工具调用能力
基准测试	OS World (75%) / Swebench Pro (56.8%) / GPQA (83%)	计算机使用能力首超 Opus 4.6，知识工作能力领先
上下文窗口	100万 Tokens	与 Claude 系列持平，支持超长文档处理
工具生态	Playwright / Gmail API / Calendar API	原生支持浏览器自动化和邮件/日历操作
定价	Thinking: .50/百万输入Tokens; Pro: 0/百万输入Tokens	比 GPT 5.2 略有上涨，但功能高度统一

3. 技术深度拆解与实战 SOP (Technical Deep Dive / SOP)

3.1 模型定位与架构演进

GPT 5.4 的发布标志着 OpenAI 完成了类似 Anthropic 在 Opus 4.6 上的战略整合。在 GPT 5.2 时代，OpenAI 将模型拆分为专注于不同场景的变体：GPT 5.2 侧重知识工作，GPT 5.3 Codeex 专注编程。这种分离设计导致开发者必须在多个模型间切换。GPT 5.4 的核心突破在于将两者的能力融合为一个单一的前沿模型，同时在速度、Token 效率和工具调用能力上实现优化。

3.2 基准测试深度分析

Matthew 重点展示了 OpenAI 官方博客中的对比图表：

OS World（计算机使用）：GPT 5.4 Thinking 达到 75% 准确率，仅需 15 次工具调用即可达到峰值。相比之下，GPT 5.2 准确率不到 50%，且需要 42 次工具调用。Opus 4.6 得分为 72.7%。这意味着 GPT 5.4 在"高效完成任务"维度上首次超越 Claude。
Swebench Pro（编程能力）：GPT 5.4 Thinking 得分 56.8%，超越 GPT 5.3 Codeex 的专用编程模型（54.2%）。这是业界首次出现通用模型在编程基准上超越专用模型的情况。
GPQA（知识工作）：GPT 5.4 Thinking 达到 83%，比 Opus 4.6 的 78% 高出 5 分，比 GPT 5.3 Codeex 高出 13 分。
Frontier Math：GPT 5.4 同样表现优异，继续保持领先。

3.3 计算机使用能力实测

OpenAI 展示的 Demo 揭示了 GPT 5.4 在真实场景中的能力边界：

Gmail 自动化：模型能够自主导航 Gmail 界面、查看已发送邮件、标记星标、添加标签分类。整个过程以实时速度运行（视频中时间戳显示为真实耗时），无加速处理。
批量数据录入：模型从 JSON 对象中提取数据并填入表单，响应速度极快。
主题公园模拟游戏：仅凭一个轻量级提示词，GPT 5.4 生成了完整的模拟经营游戏，包含资金管理、游客满意度、清洁度、园区评级等复杂逻辑系统。
2D 风格 RPG 游戏：生成的像素风格角色扮演游戏具备完整的战斗系统（攻击、结束回合等）。

3.4 OpenClaw 集成配置

Matthew 强调在 OpenClaw 中使用 GPT 5.4 需要遵循特定的提示词策略：

独立提示词组：GPT 5.4 的提示词风格与 Claude/Opus 系列差异显著。建议为 GPT 5.4 和 Opus 分别维护独立的系统提示词配置。
官方文档参考：OpenAI 已发布 GPT 5.4 专用提示词指南，Matthew 建议在 OpenClaw 中直接引用该文档或基于其重写提示词。
模型选择：由于定价差异显著（Pro 版本是 Thinking 的 12 倍），Matthew 建议大多数用例使用 Thinking 版本，只有对推理能力有极致需求的场景才考虑 Pro。

4. 核心干货运用 (Prompts & Configuration)

4.1 提示词策略差异

GPT 5.4 采用了与 Claude 系列不同的提示词范式。Claude 模型擅长"理解模糊意图并自我推理"，而 GPT 5.4 更依赖显式指令。Matthew 建议：

为 GPT 5.4 编写更具体、更步骤化的提示词
利用新增的"前置计划"功能：在执行前先展示完整计划，避免无效的 Token 消耗
为不同模型维护独立的 System Prompt 文件

4.2 定价与成本优化

版本	输入价格（美元/百万Tokens）	输出价格（美元/百万Tokens）
GPT 5.2	.75	4
GPT 5.4 Thinking	.50	5
GPT 5.4 Pro	0	80

Matthew 透露他已在 OpenClaw 中消耗了约 50 亿 Tokens 用于调优，这意味着一线模型的使用成本正在快速攀升。他建议通过输入缓存来降低重复性工作的成本。

5. 极客洞察与避坑指南 (Geek Insights & Boundary)

5.1 反直觉技术结论

通用模型首次超越专用编程模型：Swebench Pro 的结果显示，GPT 5.4 Thinking (56.8%) 超越了 GPT 5.3 Codeex (54.2%)。这打破了"专用模型在垂直领域更强"的行业共识。
Pro 版本未必是首选：尽管 Pro 版本定价高出 12 倍，但 Matt Schumer 评测后表示"5.4 Thinking 对所有用例都足够甚至过剩"。这意味着大多数开发者无需盲目追求最高配。
速度与效率的质变：OS World 基准显示，GPT 5.4 仅需 15 次工具调用即可达到 75% 准确率，而 GPT 5.2 需要 42 次。这意味着 Token 消耗量和执行时间都大幅下降。

5.2 已知问题与局限性

前端审美落后于竞品：Matt Schumer 指出 GPT 5.4 的前端代码"品味"远不如 Opus 4.6 和 Gemini 3.1 Pro，生成的 UI 缺乏美感。
缺乏现实世界上下文理解：测试中，GPT 5.行程未能考虑"4 规划的旅行春假人流高峰"等现实因素，需要用户手动补充更多上下文。
任务中断问题：在 OpenClaw 中运行时会过早停止，未能完整执行长任务。Sam Altman 已确认将"立即修复"。
网站反爬虫限制：尽管模型能力足够，但多数网站本身阻止自动化访问，这需要整个行业共同推进。

5.3 实战陷阱

不要将 Claude 提示词直接迁移：GPT 5.4 对模糊指令的容忍度较低，需要更明确的步骤指引。
避免在 Pro 版本上做日常任务：高昂的定价使得 Pro 版本仅适合对推理质量有极致要求的场景。
不要忽略前置计划功能：该功能可显著减少无效的 Token 消耗和任务返工。

6. 金句 (Golden Quotes)

“GPT 5.4 就是把 GPT 5.2 和 GPT 5.3 Codeex 融合在一起的产物，一个兼具知识工作能力和顶级编程能力的全能模型。”
“OpenAI 在不到一年时间内从 GPT 4.5 的困局中走出，整个 5.0 系列模型现在既高效又快速，令人敬畏。”
“Matt Schumer 说它是有史以来最好的模型——虽然有点夸张，但它确实改变了游戏规则。”
“Frontier Intelligence 越来越贵，但这背后是模型能力的质的飞跃——你需要亲自测试才能理解。”
“在 OpenClaw 中使用 GPT 5.4 的关键在于：别用写给 Claude 的提示词，必须为它专门设计。”

📺 视频原片

视频ID: rvdUBieefR0

📝 深度摘要#

1. 对话背景与核心主题#

2. 核心干货概览 (Technical Takeaways & Stack)#

3. 技术深度拆解与实战 SOP (Technical Deep Dive / SOP)#

4. 核心干货运用 (Prompts & Configuration)#

5. 极客洞察与避坑指南 (Geek Insights & Boundary)#

6. 金句 (Golden Quotes)#

📺 视频原片#