原始标题: New Claude & GPT Models Just Dropped (It’s War!)

发布日期: 2026-02-05 | 来源频道: @mreflow

📝 深度摘要

对话背景与核心主题

2026年2月5日,AI 领域迎来了一场史无前例的"双雄会"。Anthropic 和 OpenAI 选在同一天、几乎同一时刻发布各自最新的旗舰模型,将 AI 竞赛推向新高潮。这不仅是技术层面的较量,更演变为一场营销公关战——Anthropic 在超级碗期间发布广告,公开嘲讽 OpenAI 即将在 ChatGPT 中植入广告的决定,Sam Altman 随后亲自发文回击。

从市场份额来看,ChatGPT 拥有约 4.15 亿月活跃用户,而 Claude 仅约 1550 万用户。尽管在 AI 圈(尤其是 X 平台)Claude 备受开发者推崇,但在大众市场认知度上,Anthropic 仍有很长一段路要走。95% 的全球用户甚至不知道 Anthropic 的存在。

核心逻辑拆解

这场"战争"有两条主线并行推进:

第一条线:营销公关战。 Anthropic 在超级碗投放了四支广告,核心创意是演示 AI 在回答中途弹出广告的情景,讽刺 OpenAI 的广告策略。这些广告引发巨大争议,有人认为幽默机智,也有人批评其不实——因为 OpenAI 明确表示广告会出现在聊天界面外部,且会明确标注为广告。Sam Altman 回应称 Anthropic 的广告"明显不诚实",强调 OpenAI 的广告原则明确禁止这种形式。他还不忘补刀:“更多德州人免费使用 ChatGPT,比美国使用 Claude 的人数还多。“然而,Altman 的长文回应反而让争议热度飙升——其回应帖获得 880 万浏览量,远超 Anthropic 原始广告的 270 万。

第二条线:模型发布战。 Anthropic 于上午 9 点(太平洋时间)发布 Claude Opus 4.6,OpenAI 于约 10 点发布 GPT 5.3 Codex,前后仅相差约一小时。有趣的是,Anthropic 故意将发布时间提前 15 分钟,试图抢在 OpenAI 之前"首发”。

方法论与工具箱

Claude Opus 4.6 核心能力:

  • 100 万 token 上下文窗口(约 75 万词输入输出)
  • 财务分析、研究、文档处理、电子表格、演示文稿
  • 多任务处理(使用 Claude Code 时可同时执行多个任务)
  • Agent Teams:可组建 AI 团队协作完成任务
  • 自适应思考:模型根据上下文线索自动决定思考时长
  • 在"人类最后考试”(Humanity’s Last Exam)基准测试中表现最佳

GPT 5.3 Codex 核心能力:

  • 定位为"迄今为止最强大的代理式编程模型"
  • 使用早期版本自我调试训练过程、管理部署、诊断测试结果
  • 实现了真正的自我改进 AI——用 AI 开发更好的 AI
  • 当前仅在付费 ChatGPT 计划和 Codex 应用中可用,API 即将推出

基准测试对比:

  • Terminal Bench 2.0:GPT 5.3 以 77.3% 胜出(Claude 为 65.4%)
  • Agentic Computer Use OSWorld:Claude 以 72.7% 胜出(GPT 5.3 为 64.7%)
  • 两者各有擅长领域,难以直接对比

关键洞察与辩论

  1. 市场竞争有利于消费者: 多个公司相互竞争,推动技术快速进步,同时相互制衡。如果只有一家独大,广告植入可能成为行业标准。

  2. 公关回应需谨慎: Sam Altman 的长文回应被指"过度反应",Nikita 等人建议"对于幽默调侃,只需说一句’他们赢了’或玩笑回应即可"。

  3. AI 编程已趋成熟: 视频中演示了仅用一句简单提示(“为一家圣迭戈冲浪板公司设计一个漂亮的着陆页”),两个模型都能在 15 秒左右生成质量不错的网站。AI 编程已进入"可用"阶段。

  4. 自我改进 AI 的里程碑: Codex 使用自己的早期版本辅助开发下一代模型,标志着 AI 发展进入加速度阶段。

金句

  • “这是 Kendrick vs Drake 级别的 AI 大战。”
  • “我们现在已经有了自我改进的 AI——AI 正在使用自己的模型来改进未来的 AI 模型。”
  • “当所有这些模型相互竞争时,消费者是最终的赢家。”
  • “多个公司相互竞争,让彼此保持诚实。”

📺 视频原片


视频时长: 17 分钟 | 视频ID: 9f2egsZZjnw