原始标题: OpenAI’s New GPT-5.4 Pro Is Now The Smartest AI In The World

发布日期: 2026-03-06 | 来源频道: @TheAiGrid

📝 深度摘要

对话背景与核心主题

本视频由AI领域资深评论员对OpenAI最新发布的GPT-5.4 Pro进行深度评测。播主在AI科技领域长期观察,对模型性能、benchmark数据及行业竞争格局有深入研究。视频核心议题围绕GPT-5.4 Pro在各类基准测试中的实际表现展开,重点关注其是否真正实现了“全球最强AI模型”的定位,以及对谷歌Gemini 3.1 Pro和Anthropic Claude Opus 4.6等竞品的冲击。

核心干货概览

类别 核心事件 / 产品 战略意义 / 行业影响
重磅发布 GPT-5.4 Pro发布 在Frontier Math、OSWorld等前沿基准测试中超越Claude Opus 4.6和Gemini 3.1 Pro
定价争议 输入$30/百万token,输出$180/百万token 推理定价逆势上涨,高成本或影响开发者采纳意愿
数学突破 Frontier Math Tier 4达到38%,解决数学家20年未解难题 AI首次在纯数学研究领域展现“类人”创造力
专业服务 Apex Agents benchmark达到52% 首次突破专业服务任务50%门槛,指向初级白领替代
安全评级 网络安全能力被列为“高风险” OpenAI首次为通用模型实施专门安全缓解措施

深度事件拆解

事件背景与导火索

OpenAI在GPT-5系列持续迭代中,于2026年初推出GPT-5.4 Pro。该版本被内部定义为“专为金融工作流优化的模型”,同时在通用推理能力上实现显著提升。播主指出,此次评测重点不局限于传统饱和基准(如GPQA),而是聚焦于“AI下一代进化”相关的测试集,包括Frontier Math、OSWorld、BrowseComp等。

核心更新与技术细节

Benchmark性能方面:

  • BrowseComp:GPT-5.4 Pro取得89.3%得分,超越Gemini 3.1 Pro。值得注意的是,Gemini依托谷歌搜索生态本应在该领域占据优势,但实际表现逊于GPT-5.4,这一结果令播主直言“令人担忧”。

  • Frontier Math:该基准由专业数学家设计,题目均为需“研究级思维”的原创难题。测试发布初期,最强模型得分仅约2%。GPT-5.4 Pro在最具挑战性的Tier 4级别实现38%得分。更具标志性意义的是,数学家Bartos个人研究了20年的数学难题被GPT-5.4解决,他评价解决方案“非常优雅、干净,感觉几乎像人类”。播主将此与2016年AlphaGo的著名“第37步”进行类比,认为这是AI首次在纯数学研究领域展现“超人类”能力。

  • Apex Agents Benchmark:由Merc Co于2026年1月发布,涵盖480个任务、33个模拟工作场景,由投资银行家、咨询顾问和律师花费5-10天构建。任务要求模型像初级员工一样单次完成金融建模、PPT制作、法律备忘录撰写等。基准发布时最佳得分为24%,GPT-5.4 Pro在6-8周内将其提升至52%,翻倍增长。播主强调:“这并非数学基准,而是真实的白领工作质量差异。”

  • GDP Val(OpenAI内部基准):测试模型在44个职业、九大行业中的表现。GPT-5.4在83%的任务中持平或超越人类专业水平,GPT-5.4 Pro达到82%。关键数据:模型完成任务速度比人类快100倍、成本低100倍。

  • OSWorld:衡量模型通过截图、键盘鼠标操作导航桌面环境的能力。GPT-5.4达到75%的最先进水平,超越GPT-5.2。

  • 创意写作:GPT-5.4 High在人类投票中排名第二。播主提及Samman曾在公开场合承认GPT-5.2在创意写作上“搞砸了”,当时模型更像“计算器”而非对话系统,此次版本已修复该缺陷。

  • 原生计算机使用能力:GPT-5.4是首个具备原生计算机使用能力的通用模型,可实现“看图-编码-测试-回放”的完整闭环。

市场与竞争反应

播主在分析中多次将GPT-5.4 Pro与Claude Opus 4.6及Gemini 3.1 Pro进行对比。核心观点:

  • 在传统强项领域(如Gemini的搜索整合能力),GPT-5.4已实现超越
  • 在数学推理层面,OpenAI持续保持领先优势,“不确定他们如何训练模型,但他们在Frontier Math问题上始终领先”
  • 定价策略可能成为采纳障碍:GPT-5.4 Pro的推理版本在输入成本上实际高于Claude Opus 4.6,播主质疑“ Intelligence too cheap to meter”的行业愿景是否过于乐观

网络安全风险评级(关键发现)

OpenAI首次将GPT-5.4 Pro标记为“High”级别( preparedness框架),要求实施专门的网络安全缓解措施。在专业级CTF(Capture The Flag)挑战中,模型达到88%成功率。在模拟网络环境中,模型成功执行复杂多步骤攻击:利用易受攻击的Azure Web应用窃取凭证、修改控制措施以在网络中横向移动。

OpenAI在技术报告中坦承:在需要真正推理的全新难题上,GPT-5.4 Thinking得分仅4%,甚至低于GPT-5.2 Codex的8%。

核心干货运用

用户与开发者建议

  • 成本优化:对于追求性价比的开发者,标准版GPT-5.4(非Pro)在多数场景下已足够使用,只有重度推理任务才值得Pro版本的高昂成本
  • 关注真实基准:传统基准已饱和,应重点跟踪Apex Agents、Frontier Math等指向实际工作能力的新测试集
  • 代理开发:GPT-5.4是当前构建自动化代理的最佳模型选择,因其原生支持计算机操作能力
  • 创意场景验证:创意写作能力已显著改善,可亲自测试而非依赖历史偏见

行业前瞻与非共识观察

反直觉结论

播主提出一个发人深省的观察:AI基准的进步曲线比想象中更快,但这种进步可能并非线性。GPT-5.4在真实原创难题上反而出现性能 regression(4% vs 8%),暗示模型在特定维度上可能存在“聪明但狭隘”的问题。

此外,播主对“Intelligence too cheap to meter”的行业共识提出质疑:推理定价并未下降,反而在上涨,当GPT-5.4 Pro输出成本达到$180/百万token时,高级AI推理实际上变得更加昂贵。

潜在风险预警

网络安全威胁:这是播主最严肃的警告。GPT系列的网络安全基准呈阶梯式上升——GPT-5.2为47%,GPT-5.3达80%,GPT-5.4为73%(略有回落但仍处高位)。按此趋势,GPT-6、GPT-7将触及“关键级别”,即模型可能具备“自主执行大规模灾难性网络攻击”能力。OpenAI已承认任何持有API密钥的人都能访问GPT-5.4,这与枪支、驾照的实名监管形成荒诞对比。播主警示:“Model that can autonomously execute sophisticated cyber attacks at scale is a minimum in that risk.”

白领职业替代加速:从24%到52%的跃升仅用6-8周,指向初级投行分析师、咨询顾问、律师助理等岗位面临“前所未有的 job disruption”。播主提醒:“if we’re talking about job disruption, this is something to think about.”

金句

  • “它解决了一个20年无人能解的数学难题,方案如此优雅、干净,感觉几乎像人类——这就是AI首次在纯数学研究领域展现’第37步’级别的超人类创造力。”
  • “6周内从24%到52%,这意味着初级白领工作的替代正在以前所未有的速度加速。”
  • “一个能自主执行大规模复杂网络攻击的模型,其风险程度与枪支无异——但现在任何拥有API密钥的人都能获取它。”
  • “传统基准早已饱和,真正重要的是模型正在侵入真实的白领工作场景,这才是令人恐惧的质变。”
  • “我们正看到AI跨个人前沿的突破——也许这不是奇点,但我们已不再是旁观者。”

注:本文基于视频字幕内容整理,文中涉及的所有benchmark数据、时间线及公司声明均来自原视频。视频发布于2026年3月6日,来源为TheAiGrid频道。


📺 视频原片


视频ID: 3jrGutFAIgo