原始标题: What the New ChatGPT 5.4 Means for the World

发布日期: 2026-03-06 | 来源频道: @aiexplained-official

📝 深度摘要

1. 讨论背景与核心主题

本期视频发布于2026年3月,就在GPT-5.3发布仅48小时后,OpenAI又推出了GPT-5.4。视频主理人指出,当前AI领域正处于有史以来最混乱的时期:社交媒体上充斥着夸大其词的早期体验帖、各类泄漏报告与相互指控、以及各大公司自行创建的所谓"基准测试"。在这种信息过载的环境下,主理人系统梳理了GPT-5.4的技术能力突破、基准测试数据、与竞品的量化对比,以及近期引发巨大争议的OpenAI与Anthropic在国防部合同上的博弈。

2. 核心干货概览

类别 核心干货点 技术/战略意义
模型/技术 GPT-5.4 / GPT-5.4 Pro 整合GPT-5.3 Codex行业领先的编码能力,同时提升跨工具、软件开发环境、专业任务的表现
基准测试 (SOTA) GDPval: 70.8%首次超越人类,83%含平局 基于44个白领职业的专家盲评基准,模型在自包含数字任务上优于人类,但未涵盖真实工作全貌
战略动向 OpenAI获国防部合同,Anthropic被踢出 Dario Amodei发布1600字内部备忘录指控OpenAI"安全剧院",五角大楼可要求GPT模型执行战场决策

3. 深度技术拆解

模型架构与演进

GPT-5.4被主理人定义为OpenAI打造"面向所有白领专业人士的Codex"的尝试。该模型整合了行业领先的编码能力,同时着重改进跨工具、软件开发环境和专业任务的工作流程。根据35页系统卡片披露的内部机器学习基准,模型解决机器学习任务的能力从GPT-5.2 Thinking的约12%翻倍提升至GPT-5.4 Thinking的23%。然而,在OpenAI的Proof Q&A基准测试中,GPT-5.4 Thinking不仅落后于GPT-5.3 Codex,甚至不如GPT-5.2 Codex和GPT-5.2 Thinking。这一现象揭示了当前AI性能的核心困境:通过专业化数据训练取得的突破并不能自动泛化到其他领域,模型能力呈现"参差不齐的尖刺状"分布。

核心能力测评

在编码能力方面,主理人展示了GPT-5.4 Codeex的实测表现:在Mac和Windows上,要求模型创建Stockport County FC赛季进度的动态排行榜,模型一次性生成可运行的交互式网页,包含赛季推进和排名变化的动画功能。主理人估计AI目前能完成世界级软件所需编码的98%,非开发者借助AI可以达到接近顶尖开发者的水平,专业界限正在模糊。

在计算机使用能力方面,GPT-5.4的进步尤为显著。模型现在能够以前所未有的精度"看到并点击"屏幕元素来验证自身输出。主理人展示了创建维京人入侵英格兰时间线的案例:第一版生成的图形存在错误(伦敦或爱奥那岛位置错误、Shepy缺失),但在后台运行后,模型能够识别并修复部分错误。这标志着"自动化测试闭环"几近完成。

局限性与幻觉观察

根据Artificial Analysis的基准测试,GPT-5.4在幻觉探测方面表现尚可,整体准确率接近State of the Art,但不及GPT-5.3 Codex。关键问题在于:当GPT-5.4犯错时,它有89%的概率会"胡编乱造"(BS)答案而非承认不知道——这是该指标中的高风险区间。主理人特别提及,这距离Sam Altman在2023年初声称"到2025年我们无需再讨论幻觉问题"已过去近三年,实际情况与承诺相去甚远。

细节支撑

在Proof Q&A基准测试中,测试题目来自OpenAI内部20个实际研究工程瓶颈,每个瓶颈曾导致项目至少延误一天,解决这些问题本可为OpenAI节省数百万美元。任务要求模型诊断和解释复杂问题,如意外性能回归、异常训练指标或微妙bug。GPT-5.4 Thinking在该测试中的糟糕表现表明,即使在同一模型家族内,不同版本的能力也可能出现显著退步。

Epoch AI的Frontier Math项目第四级题目难度极高,一位数学家透露GPT-5.4 solve了一个他花了近20年精心整理的问题,他形容这是见证了自己的"第37步棋",引用了Google DeepMind AlphaGo的经典时刻,并表示"我的奇点刚刚发生"。

4. 行业格局与战略分析

实验室对决

视频深度剖析了OpenAI与Anthropic之间因国防部合同引发的激烈冲突。Anthropic被五角大楼认定为"供应链风险",总统特朗普公开表示"像狗一样解雇了Anthropic"。Anthropic CEO Dario Amodei随后发布1600字内部备忘录,措辞极为严厉:OpenAI的声明是"恶意撒谎"的典型例子,“安全层"不过是被轻易覆盖的"安全剧场”。备忘录披露,OpenAI总裁Greg Brockman向特朗普捐款约2500万美元,而Anthropic拒绝效忠。

根据《华盛顿邮报》独家报道,在伊朗境内,Claude通过Palantir系统已被用于建议数百个军事目标、给出精确坐标、并按重要性排序优先级。尽管Anthropic声称其云端部署可限制模型在军事无人机上的自主行动能力,但若AI正在参与战场决策,这种区分"毫无意义"。

主理人指出,2024年1月OpenAI首次修改服务条款允许军事使用,当时声称仅针对"心理健康建议"等边缘用例。而就在几天前,Sam Altman告知员工:政府如何使用GPT模型做"作战决策"是政府的事,“你无权置喙”。

预测与路线图

主理人援引Whimo案例指出,即使安全性能提升10倍,也不意味着能获得国家或国际采用。他预测白领工作将"持续到今年年底",但承认这是"紧张地说出"的判断。Anthropic revenue预计从年初90亿增长至200亿,实现连续三年每年10倍增长的"奇点级加速度"。

5. 核心干货运用

测评方法论还原

主理人使用的核心测评方法包括:基于44个白领职业的GDPval基准(按GDP影响挑选)、Artificial Analysis幻觉率测试、以及OpenAI内部Proof Q&A基准。GDPval测试由专家盲评,将模型输出与人类在相同任务上的表现对比。但主理人特别指出,该基准的局限性在于任务"自包含、数字化的",无法代表这些职业的"全部任务范围和目的"。

Prompting技巧提取

视频展示了利用GPT-5.4代码执行能力创建交互式可视化的高效Prompt策略:通过一次性提示完成复杂的数据处理、网页渲染、动画生成等多步骤任务,模型能够自主协调网络搜索、数据处理、代码生成等工具链。

6. 风险、伦理与安全

安全红线

Dario Amodei备忘录揭示的核心安全争议包括:五角大楼曾要求将Claude用于"国内监控和完全自主战争"——Anthropic认为这是不可逾越的红线。OpenAI通过Palantir提供的"安全层"只是一个分类器,可被轻易override。Amodei直言这"80%是安全剧场"。当前五角大楼政策要求"人类必须在决策循环中",但Amodei指出政策可单方面更改,“实际上不是真正的约束”。

政策影响

主理人梳理了时间线:2024年初OpenAI悄然放宽军事禁令;2026年Anthropic因拒绝提供可能被用于自主武器的AI而被解雇;OpenAI获得价值数亿美元的国防部合同。Google DeepMind同样在與国防部合作但保持沉默。Amodei警告:如果不与政府合作,会有"至少一个其他参与者"(暗指xAI)声称"会做你想做任何事"。

7. 金句

“GPT-5.4是OpenAI打造面向所有白领专业人士的Codex的尝试。”

“即使10倍的安全性能也不意味着能获得国家或国际采用。”

“当模型犯错时,89%的概率会胡编乱造而非承认不知道。”

“OpenAI的声明是恶意撒谎的典型例子。”

“那层安全层不过是被轻易覆盖的安全剧场,80%是表演。”

“模型通过专业化数据训练取得的突破并不能自动泛化到其他领域——这就是我们当前看到的参差不齐的尖刺状性能。”

“我的奇点刚刚发生——一位数学家见证GPT-5.4 solve了他20年精心整理的问题。”

“他们提供的就是让我们所做的事情对员工不可见的服务。”

“如果AI正在云端参与战场决策,这种’模型在云端不在设备上’的区分毫无意义。”

“专业界限正在模糊——非开发者借助AI可以达到接近顶尖开发者的水平。”


📺 视频原片


视频ID: zizoDORjmlQ