原始标题: New Claude & GPT Models Just Dropped (It’s War!)

发布日期: 2026-02-05 | 来源频道: @mreflow

📝 深度摘要

AI 周报与硬核实战测评报告

1. 对话背景与核心主题

2025年2月5日,AI领域迎来了一场史无前例的正面交锋。Anthropic与OpenAI这两大巨头在同一天、相隔仅约15至35分钟内相继发布了各自的最新旗舰模型。Anthropic于太平洋时间上午9点左右发布了Claude Opus 4.6,而OpenAI则在上午10点左右推出了GPT-5.3 Codex。这不仅是产品发布的直接碰撞,更是围绕Super Bowl广告营销展开的一场舆论战。视频博主作为中立的技术观察者,旨在还原这场"AI战争"的技术本质与商业博弈,为程序员群体及AI从业者提供客观的选型参考。

2. 核心干货概览

类别 核心动态 / 工具 生产力价值 / 硬件门槛
模型/产品更新 Claude Opus 4.6 / GPT-5.3 Codex 两者均为面向程序员的编码模型,Opus 4.6上下文窗口达100万token,GPT-5.3在Terminal Bench 2.0测试中得分77.3%领先
硬件/环境要求 Claude可通过API和官网直接调用;GPT-5.3 Codex需通过Codex App或付费ChatGPT计划使用,API尚未开放 无本地运行需求,纯云端调用;对网络稳定性和API配额有依赖
隐私与安全 两者均为云端服务,用户数据上传至服务商服务器 数据主权归服务商,开发者需关注API数据使用政策

3. 每周要闻与多模型观察

动态一:Anthropic vs OpenAI 的 Super Bowl 广告大战

事件背景

Anthropic在2025年Super Bowl期间投放了四则广告,核心创意是在AI给出答案的中间插入广告,以此嘲讽OpenAI将在ChatGPT中引入广告的计划。视频中展示了其中一个广告片段:用户询问"如何与母亲更好地沟通",AI给出回答后,中间突然插入一个名为"Golden Encounters"的成熟女性约会网站广告。这种极具讽刺意味的表达方式瞬间在社交媒体上引发热议。

技术逻辑还原

OpenAI此前宣布将在ChatGPT免费版和每月8美元的计划中引入广告收入,但明确表示广告不会出现在聊天消息的回复内容内部,而是显示在回复外部并清晰标注为广告。Anthropic的广告创意实际上是对这一场景的夸大演绎,并非OpenAI的实际产品形态。OpenAI CEO Sam Altman在X平台上公开回应,称Anthropic的广告"有趣但明显不诚实",并强调OpenAI的核心广告原则明确禁止这种行为。Altman还指出,Anthropic在市场认知上与OpenAI差距悬殊——全球约95%的人甚至不知道Anthropic的存在。

行业冲击波

这场广告战暴露了AI行业竞争格局的深层矛盾。Sam Altman的回应帖子获得了880万次浏览,而Anthropic的原广告仅有270万次——一次本应打击对手的营销行动,反而为对方带来了三倍流量。有从业者戏谑这是"Kendrick vs Drake"式的嘻哈对决现实版。值得关注的是,OpenAI声称仅德克萨斯州使用ChatGPT免费版的人数就超过了整个美国使用Claude的总人数,这意味着Anthropic虽然技术口碑极佳,但用户规模仍是其致命短板。

动态二:同天发布的旗舰编码模型直接对决

事件背景

两家公司在2025年2月5日几乎同时发布了新一代编码模型。Anthropic的Claude Opus 4.6于上午9点发布,OpenAI的GPT-5.3 Codex于约9点45分至10点20分之间发布。据TechCrunch报道,Anthropic原本计划与OpenAI同时发布(上午10点),但临时将发布时间提前了15分钟,以微弱优势"率先发布"最新模型。

技术逻辑还原

Claude Opus 4.6的核心升级包括:100万token上下文窗口(约75万词输入输出总量)、自适应思考能力(根据上下文线索自动决定推理时长)、支持多任务并行处理、以及在Claude Code中可组建Agent团队协同工作。该模型在知识工作、Agentic搜索和"人类终极考试"基准测试中均声称表现最佳。

GPT-5.3 Codex则被OpenAI定位为"迄今为止最强大的Agentic编码模型"。其最大亮点在于:OpenAI使用该模型的早期版本自行调试训练过程、管理部署、诊断测试结果——这意味着AI已开始用于改进AI自身,形成自循环加速。OpenAI承认GPT-5.3尚未开放API,仅可通过Codex App和付费ChatGPT计划访问。

行业冲击波

实测对比数据显示,两者各擅胜场。Terminal Bench 2.0测试中,Opus 4.6得分65.4%,GPT-5.3得分77.3%,OpenAI明显领先。然而在Agentic Computer Use(OS World)测试中,Opus 4.6以72.7%击败GPT-5.3的64.7%,Anthropic在计算机操作能力上扳回一城。由于两者使用的基准测试集存在差异,严格的横向对比并不公平,但可以确认:程序员群体已成为两大厂商争夺的核心用户战场。

4. 深度实测 SOP 与性能报告

实测表现还原

视频博主进行了实地对比测试:同时向Claude Opus 4.6和GPT-5.3 Codex发送相同Prompt:“为一家位于圣地亚哥的冲浪板公司设计一个精美的着陆页”。测试结果如下:

Claude Opus 4.6:先完成生成,用时约15秒。生成的页面包含懒加载动画、滚动时的视觉交互、SVG矢量图形配色方案选择了非基础色调,整体风格干净简洁。

GPT-5.3 Codex:晚约15秒完成。页面包含冲浪板入园动画、滚动时的弹出式动画、采用了emoji元素(博主认为可以稍大一些)。背景视觉效果更现代、更时尚。

博主最终个人偏好选择了GPT-5.3生成的版本,认为背景更具现代感,但强调两者都已达到"AI编码真正好用"的水平,尤其对于构建简单网站而言。

配置与运行 SOP

Claude Opus 4.6获取途径:

  1. 访问Claude官网直接使用
  2. 通过API调用(开发者)
  3. Cursor IDE已集成Opus 4.6

GPT-5.3 Codex获取途径:

  1. 下载Codex App(全新独立应用)
  2. 付费ChatGPT计划用户
  3. API暂未开放

“真相"核查

  1. Anthropic广告中的广告插入方式与OpenAI实际计划不符,属于创意演绎而非产品事实
  2. Opus 4.6的自适应思考功能实际上ChatGPT已支持一段时间,并非全新特性
  3. 两者在严格基准测试对比上存在"选择性地展示"各自优势项目的情况
  4. GPT-5.3 Codex的API发布时间未确定,开发者当前无法大规模集成

5. 行业清醒剂与非共识观察

反直觉结论

尽管AI圈从业者几乎一致认为Claude是"最佳编程模型”,但根据GP Trends数据,Claude的月活跃用户数仅为1550万,不仅远低于ChatGPT的4.15亿,甚至落后于Perplexity、DeepSeek和Gemini。这一数据揭示了技术圈与大众市场的认知严重割裂——AI从业者的偏好并不能代表真实市场格局。

实战陷阱

  1. 基准测试的选择性展示:两家厂商在发布时均选择对自身有利的测试集进行宣传,Terminal Bench vs SWE Bench的差异导致对比缺乏公信力
  2. API可用性陷阱:GPT-5.3 Codex虽已发布但API缺失,开发者实际能用到的能力受限
  3. 营销话术与产品现实的差距:Anthropic广告中演示的"AI回答中插入广告"并非OpenAI的实际产品形态
  4. 自适应思考的同质化:Claude Opus 4.6重点宣传的"自适应思考"功能,ChatGPT实际上早已实现

6. 金句

“95%的人甚至不知道Anthropic存在,但AI圈子里人人都在讨论Claude——这就是技术圈与真实市场的割裂。”

“AI已经开始用AI来改进AI了,自循环一旦开启,迭代速度只会越来越快。”

“有竞争是好事,如果只有一家公司决定在AI里加广告且无人反对,那这种情况就会变成我们不得不接受的常态。”

“模型基准测试水分很大,各家都在挑选对自己有利的战场,真正有用的还是看实际干活的表现。”


📺 视频原片


视频ID: 9f2egsZZjnw