新ChatGPT 5.4发布对世界意味着什么

原始标题: What the New ChatGPT 5.4 Means for the World

发布日期: 2026-03-06 | 来源频道: @aiexplained-official

📝 深度摘要

1. 讨论背景与核心主题

本期视频发布于2026年3月，就在GPT-5.3发布仅48小时后，OpenAI又推出了GPT-5.4。视频主理人指出，当前AI领域正处于有史以来最混乱的时期：社交媒体上充斥着夸大其词的早期体验帖、各类泄漏报告与相互指控、以及各大公司自行创建的所谓"基准测试"。在这种信息过载的环境下，主理人系统梳理了GPT-5.4的技术能力突破、基准测试数据、与竞品的量化对比，以及近期引发巨大争议的OpenAI与Anthropic在国防部合同上的博弈。

2. 核心干货概览

类别	核心干货点	技术/战略意义
模型/技术	GPT-5.4 / GPT-5.4 Pro	整合GPT-5.3 Codex行业领先的编码能力，同时提升跨工具、软件开发环境、专业任务的表现
基准测试 (SOTA)	GDPval: 70.8%首次超越人类，83%含平局	基于44个白领职业的专家盲评基准，模型在自包含数字任务上优于人类，但未涵盖真实工作全貌
战略动向	OpenAI获国防部合同，Anthropic被踢出	Dario Amodei发布1600字内部备忘录指控OpenAI"安全剧院"，五角大楼可要求GPT模型执行战场决策

3. 深度技术拆解

模型架构与演进

GPT-5.4被主理人定义为OpenAI打造"面向所有白领专业人士的Codex"的尝试。该模型整合了行业领先的编码能力，同时着重改进跨工具、软件开发环境和专业任务的工作流程。根据35页系统卡片披露的内部机器学习基准，模型解决机器学习任务的能力从GPT-5.2 Thinking的约12%翻倍提升至GPT-5.4 Thinking的23%。然而，在OpenAI的Proof Q&A基准测试中，GPT-5.4 Thinking不仅落后于GPT-5.3 Codex，甚至不如GPT-5.2 Codex和GPT-5.2 Thinking。这一现象揭示了当前AI性能的核心困境：通过专业化数据训练取得的突破并不能自动泛化到其他领域，模型能力呈现"参差不齐的尖刺状"分布。

核心能力测评

在编码能力方面，主理人展示了GPT-5.4 Codeex的实测表现：在Mac和Windows上，要求模型创建Stockport County FC赛季进度的动态排行榜，模型一次性生成可运行的交互式网页，包含赛季推进和排名变化的动画功能。主理人估计AI目前能完成世界级软件所需编码的98%，非开发者借助AI可以达到接近顶尖开发者的水平，专业界限正在模糊。

在计算机使用能力方面，GPT-5.4的进步尤为显著。模型现在能够以前所未有的精度"看到并点击"屏幕元素来验证自身输出。主理人展示了创建维京人入侵英格兰时间线的案例：第一版生成的图形存在错误（伦敦或爱奥那岛位置错误、Shepy缺失），但在后台运行后，模型能够识别并修复部分错误。这标志着"自动化测试闭环"几近完成。

局限性与幻觉观察

根据Artificial Analysis的基准测试，GPT-5.4在幻觉探测方面表现尚可，整体准确率接近State of the Art，但不及GPT-5.3 Codex。关键问题在于：当GPT-5.4犯错时，它有89%的概率会"胡编乱造"（BS）答案而非承认不知道——这是该指标中的高风险区间。主理人特别提及，这距离Sam Altman在2023年初声称"到2025年我们无需再讨论幻觉问题"已过去近三年，实际情况与承诺相去甚远。

细节支撑

在Proof Q&A基准测试中，测试题目来自OpenAI内部20个实际研究工程瓶颈，每个瓶颈曾导致项目至少延误一天，解决这些问题本可为OpenAI节省数百万美元。任务要求模型诊断和解释复杂问题，如意外性能回归、异常训练指标或微妙bug。GPT-5.4 Thinking在该测试中的糟糕表现表明，即使在同一模型家族内，不同版本的能力也可能出现显著退步。

Epoch AI的Frontier Math项目第四级题目难度极高，一位数学家透露GPT-5.4 solve了一个他花了近20年精心整理的问题，他形容这是见证了自己的"第37步棋"，引用了Google DeepMind AlphaGo的经典时刻，并表示"我的奇点刚刚发生"。

4. 行业格局与战略分析

实验室对决

视频深度剖析了OpenAI与Anthropic之间因国防部合同引发的激烈冲突。Anthropic被五角大楼认定为"供应链风险"，总统特朗普公开表示"像狗一样解雇了Anthropic"。Anthropic CEO Dario Amodei随后发布1600字内部备忘录，措辞极为严厉：OpenAI的声明是"恶意撒谎"的典型例子，“安全层"不过是被轻易覆盖的"安全剧场”。备忘录披露，OpenAI总裁Greg Brockman向特朗普捐款约2500万美元，而Anthropic拒绝效忠。

根据《华盛顿邮报》独家报道，在伊朗境内，Claude通过Palantir系统已被用于建议数百个军事目标、给出精确坐标、并按重要性排序优先级。尽管Anthropic声称其云端部署可限制模型在军事无人机上的自主行动能力，但若AI正在参与战场决策，这种区分"毫无意义"。

主理人指出，2024年1月OpenAI首次修改服务条款允许军事使用，当时声称仅针对"心理健康建议"等边缘用例。而就在几天前，Sam Altman告知员工：政府如何使用GPT模型做"作战决策"是政府的事，“你无权置喙”。

预测与路线图

主理人援引Whimo案例指出，即使安全性能提升10倍，也不意味着能获得国家或国际采用。他预测白领工作将"持续到今年年底"，但承认这是"紧张地说出"的判断。Anthropic revenue预计从年初90亿增长至200亿，实现连续三年每年10倍增长的"奇点级加速度"。

5. 核心干货运用

测评方法论还原

主理人使用的核心测评方法包括：基于44个白领职业的GDPval基准（按GDP影响挑选）、Artificial Analysis幻觉率测试、以及OpenAI内部Proof Q&A基准。GDPval测试由专家盲评，将模型输出与人类在相同任务上的表现对比。但主理人特别指出，该基准的局限性在于任务"自包含、数字化的"，无法代表这些职业的"全部任务范围和目的"。

Prompting技巧提取

视频展示了利用GPT-5.4代码执行能力创建交互式可视化的高效Prompt策略：通过一次性提示完成复杂的数据处理、网页渲染、动画生成等多步骤任务，模型能够自主协调网络搜索、数据处理、代码生成等工具链。

6. 风险、伦理与安全

安全红线

Dario Amodei备忘录揭示的核心安全争议包括：五角大楼曾要求将Claude用于"国内监控和完全自主战争"——Anthropic认为这是不可逾越的红线。OpenAI通过Palantir提供的"安全层"只是一个分类器，可被轻易override。Amodei直言这"80%是安全剧场"。当前五角大楼政策要求"人类必须在决策循环中"，但Amodei指出政策可单方面更改，“实际上不是真正的约束”。

政策影响

主理人梳理了时间线：2024年初OpenAI悄然放宽军事禁令；2026年Anthropic因拒绝提供可能被用于自主武器的AI而被解雇；OpenAI获得价值数亿美元的国防部合同。Google DeepMind同样在與国防部合作但保持沉默。Amodei警告：如果不与政府合作，会有"至少一个其他参与者"（暗指xAI）声称"会做你想做任何事"。

7. 金句

“GPT-5.4是OpenAI打造面向所有白领专业人士的Codex的尝试。”

“即使10倍的安全性能也不意味着能获得国家或国际采用。”

“当模型犯错时，89%的概率会胡编乱造而非承认不知道。”

“OpenAI的声明是恶意撒谎的典型例子。”

“那层安全层不过是被轻易覆盖的安全剧场，80%是表演。”

“模型通过专业化数据训练取得的突破并不能自动泛化到其他领域——这就是我们当前看到的参差不齐的尖刺状性能。”

“我的奇点刚刚发生——一位数学家见证GPT-5.4 solve了他20年精心整理的问题。”

“他们提供的就是让我们所做的事情对员工不可见的服务。”

“如果AI正在云端参与战场决策，这种’模型在云端不在设备上’的区分毫无意义。”

“专业界限正在模糊——非开发者借助AI可以达到接近顶尖开发者的水平。”

📺 视频原片

视频ID: zizoDORjmlQ

📝 深度摘要#

1. 讨论背景与核心主题#

2. 核心干货概览#

3. 深度技术拆解#

模型架构与演进#

核心能力测评#

局限性与幻觉观察#

细节支撑#

4. 行业格局与战略分析#

实验室对决#

预测与路线图#

5. 核心干货运用#

测评方法论还原#

Prompting技巧提取#

6. 风险、伦理与安全#

安全红线#

政策影响#

7. 金句#

📺 视频原片#