原始标题: OpenAI Launches ChatGPT 5.4
发布日期: 2026-03-06 | 来源频道: @ai-in-business-v2
📝 深度摘要
🎙️ 本期头条:OpenAI 正式发布 ChatGPT 5.4,携百万级 Token 上下文窗口与可操控性交互杀入专业工作场景
💡 商业洞察与深度拆解
-
专业工作工具定位:OpenAI 此次将 GPT 5.4 定位为“专业工作工具”,推出 Thinking 和 Pro 两个版本,旨在切入知识工作者的日常办公场景。这一战略布局紧随其与多家咨询公司签订的企业级合作协议之后,意图非常明确——让 ChatGPT 从消费级玩具变成企业必备的生产力助手。
-
百万 Token 上下文窗口:API 层面支持最高 100 万 Token 的上下文窗口,这对代码处理意义重大。开发者可以一次性加载整个代码库进行跨文件分析,而不再受限于此前较小的上下文限制。这也意味着 OpenAI正在正面挑战 Anthropic 在长上下文领域的优势地位。
-
Token 效率提升与成本下降:OpenAI 宣称 GPT 5.4 相比 5.2 能以更少的 Token 解决相同问题,这意味着企业的 AI 运营成本将显著下降。速度提升同样可观——对于需要长时间运行的代码任务来说,三五个小时的任务耗时有望大幅缩短。
-
知识工作基准突破:在 GDP Val 基准测试(涵盖 44 个职业类别)中,GPT 5.4 在 83% 的任务中超越了行业专业人员给出的结果,相比 GPT 5.2 的 71% 实现了 12 个百分点的跃升。这是实打实的生产力提升,尤其对知识工作者意义重大。
-
专业交付物质量提升:在与初级投资银行分析师的对比测试中,GPT 5.4 获得了 87% 的评分对比 5.2 的 68%,人类评审团在 68% 的情况下更偏好新模型生成的输出(尤其是视觉呈现和结构化方面)。这直接针对财务报表、法律分析、PPT 制作等具体工作场景。
-
拒绝回答率降低:新模型被问及时更少“拒答”,但主持人测试发现其在医疗敏感问题上仍存在类似的审查行为(回答后被撤回)。结合纽约等地正在讨论的限制 AI 回答医疗、法律等专业问题的立法动向,AI 的合规边界正在成为行业焦点。
🛠️ AI 实战与案例(主持人经验分享)
-
Claude 浏览器扩展真香体验:主持人 Jaden 分享了他使用 Anthropic 的 Claude 浏览器扩展完成复杂 Google Cloud 配置的真实案例。他在 Lovable 上进行无代码开发时需要后端增强,但完全不懂 Google Cloud 操作。于是他打开 Claude 侧边栏,把 Lovable 给的指引贴进去,AI 直接帮他完成了点击和配置。虽然他承认这应该让真正的开发者复查,但结果是项目顺利跑通,无需观看冗长的 YouTube 教程。
-
Lovable 无代码开发日常:Jaden 透露他日常使用 Lovable 进行“氛围编程”(vibe coding),通常一到两分钟就能收到响应。而他的开发者同事则用 Anthropic 的 Cloud Code 跑复杂的后端任务,能让模型连续运行三四个小时。GPT 5.4 的速度提升让他期待这类长时任务能更快完成。
-
可操控性(Steerability)交互革新:新加入的可操控性功能允许用户在中途对话时直接干预 AI 的推理过程。比如问“最佳冲浪海滩”时,AI 开始回答夏威夷考艾岛,你立即输入“我在加州”,AI 会立刻调整方向而非重新开始整个回答。这种“边想边改”的交互模式大幅减少了等待时间,是用户体验层面的重要创新。
-
深度网络研究能力:GPT 5.4 能在同一时间并行搜索更多网页来源,并根据一个页面上的线索跳转追踪到另一个页面,最终整合成连贯答案。对付那些信息分散在多个站点、没有现成答案的复杂问题尤为有用。
📈 趋势展望
-
AI “计算机使用”能力进入爆发期:无论是 OpenAI 还是 Anthropic,各家都在疯狂卷“计算机使用”——让 AI 看截图、操作桌面、点击按钮完成任务。OS World Verified 基准上 75% 的成功率虽不完美,但进步肉眼可见。Jaden 认为这个赛道正在快速成熟,未来普通用户让 AI 帮忙操作复杂网页和软件的日子不远了。
-
模型之争从“能力”转向“落地”:GPT 5.4 的发布本质不是炫技,而是用更低的成本、更高的效率帮企业省钱省时间。当benchmark差距逐渐收窄,各家的竞争焦点正从“谁的分数更高”转移到“谁能更快融入真实工作流”。
🔗 提到的关键工具/公司
- OpenAI(ChatGPT 5.4、API)
- Anthropic(Claude、Cloud Code、电脑使用能力)
- Google(Gemini)
- xAI(Grok)
- Lovable(无代码开发平台)
- AIbox.ai(Jaden 的创业项目,聚合 15 家 AI 公司模型的平台)
- DeepSeek(被提及审查机制)
📺 播客地址
播客时长: 13分钟