原始标题: New Claude & GPT Models Just Dropped (It’s War!)
发布日期: 2026-02-05 | 来源频道: @mreflow
📝 深度摘要
对话背景与核心主题
2026年2月5日,AI 领域迎来了一场史无前例的"双雄会"。Anthropic 和 OpenAI 选在同一天、几乎同一时刻发布各自最新的旗舰模型,将 AI 竞赛推向新高潮。这不仅是技术层面的较量,更演变为一场营销公关战——Anthropic 在超级碗期间发布广告,公开嘲讽 OpenAI 即将在 ChatGPT 中植入广告的决定,Sam Altman 随后亲自发文回击。
从市场份额来看,ChatGPT 拥有约 4.15 亿月活跃用户,而 Claude 仅约 1550 万用户。尽管在 AI 圈(尤其是 X 平台)Claude 备受开发者推崇,但在大众市场认知度上,Anthropic 仍有很长一段路要走。95% 的全球用户甚至不知道 Anthropic 的存在。
核心逻辑拆解
这场"战争"有两条主线并行推进:
第一条线:营销公关战。 Anthropic 在超级碗投放了四支广告,核心创意是演示 AI 在回答中途弹出广告的情景,讽刺 OpenAI 的广告策略。这些广告引发巨大争议,有人认为幽默机智,也有人批评其不实——因为 OpenAI 明确表示广告会出现在聊天界面外部,且会明确标注为广告。Sam Altman 回应称 Anthropic 的广告"明显不诚实",强调 OpenAI 的广告原则明确禁止这种形式。他还不忘补刀:“更多德州人免费使用 ChatGPT,比美国使用 Claude 的人数还多。“然而,Altman 的长文回应反而让争议热度飙升——其回应帖获得 880 万浏览量,远超 Anthropic 原始广告的 270 万。
第二条线:模型发布战。 Anthropic 于上午 9 点(太平洋时间)发布 Claude Opus 4.6,OpenAI 于约 10 点发布 GPT 5.3 Codex,前后仅相差约一小时。有趣的是,Anthropic 故意将发布时间提前 15 分钟,试图抢在 OpenAI 之前"首发”。
方法论与工具箱
Claude Opus 4.6 核心能力:
- 100 万 token 上下文窗口(约 75 万词输入输出)
- 财务分析、研究、文档处理、电子表格、演示文稿
- 多任务处理(使用 Claude Code 时可同时执行多个任务)
- Agent Teams:可组建 AI 团队协作完成任务
- 自适应思考:模型根据上下文线索自动决定思考时长
- 在"人类最后考试”(Humanity’s Last Exam)基准测试中表现最佳
GPT 5.3 Codex 核心能力:
- 定位为"迄今为止最强大的代理式编程模型"
- 使用早期版本自我调试训练过程、管理部署、诊断测试结果
- 实现了真正的自我改进 AI——用 AI 开发更好的 AI
- 当前仅在付费 ChatGPT 计划和 Codex 应用中可用,API 即将推出
基准测试对比:
- Terminal Bench 2.0:GPT 5.3 以 77.3% 胜出(Claude 为 65.4%)
- Agentic Computer Use OSWorld:Claude 以 72.7% 胜出(GPT 5.3 为 64.7%)
- 两者各有擅长领域,难以直接对比
关键洞察与辩论
市场竞争有利于消费者: 多个公司相互竞争,推动技术快速进步,同时相互制衡。如果只有一家独大,广告植入可能成为行业标准。
公关回应需谨慎: Sam Altman 的长文回应被指"过度反应",Nikita 等人建议"对于幽默调侃,只需说一句’他们赢了’或玩笑回应即可"。
AI 编程已趋成熟: 视频中演示了仅用一句简单提示(“为一家圣迭戈冲浪板公司设计一个漂亮的着陆页”),两个模型都能在 15 秒左右生成质量不错的网站。AI 编程已进入"可用"阶段。
自我改进 AI 的里程碑: Codex 使用自己的早期版本辅助开发下一代模型,标志着 AI 发展进入加速度阶段。
金句
- “这是 Kendrick vs Drake 级别的 AI 大战。”
- “我们现在已经有了自我改进的 AI——AI 正在使用自己的模型来改进未来的 AI 模型。”
- “当所有这些模型相互竞争时,消费者是最终的赢家。”
- “多个公司相互竞争,让彼此保持诚实。”
📺 视频原片
视频时长: 17 分钟 | 视频ID: 9f2egsZZjnw