原始标题: New Claude & GPT Models Just Dropped (It’s War!)
发布日期: 2026-02-05 | 来源频道: @mreflow
📝 深度摘要
AI 周报与硬核实战测评报告
1. 对话背景与核心主题
2025年2月5日,AI领域迎来了一场史无前例的正面交锋。Anthropic与OpenAI这两大巨头在同一天、相隔仅约15至35分钟内相继发布了各自的最新旗舰模型。Anthropic于太平洋时间上午9点左右发布了Claude Opus 4.6,而OpenAI则在上午10点左右推出了GPT-5.3 Codex。这不仅是产品发布的直接碰撞,更是围绕Super Bowl广告营销展开的一场舆论战。视频博主作为中立的技术观察者,旨在还原这场"AI战争"的技术本质与商业博弈,为程序员群体及AI从业者提供客观的选型参考。
2. 核心干货概览
| 类别 | 核心动态 / 工具 | 生产力价值 / 硬件门槛 |
|---|---|---|
| 模型/产品更新 | Claude Opus 4.6 / GPT-5.3 Codex | 两者均为面向程序员的编码模型,Opus 4.6上下文窗口达100万token,GPT-5.3在Terminal Bench 2.0测试中得分77.3%领先 |
| 硬件/环境要求 | Claude可通过API和官网直接调用;GPT-5.3 Codex需通过Codex App或付费ChatGPT计划使用,API尚未开放 | 无本地运行需求,纯云端调用;对网络稳定性和API配额有依赖 |
| 隐私与安全 | 两者均为云端服务,用户数据上传至服务商服务器 | 数据主权归服务商,开发者需关注API数据使用政策 |
3. 每周要闻与多模型观察
动态一:Anthropic vs OpenAI 的 Super Bowl 广告大战
事件背景
Anthropic在2025年Super Bowl期间投放了四则广告,核心创意是在AI给出答案的中间插入广告,以此嘲讽OpenAI将在ChatGPT中引入广告的计划。视频中展示了其中一个广告片段:用户询问"如何与母亲更好地沟通",AI给出回答后,中间突然插入一个名为"Golden Encounters"的成熟女性约会网站广告。这种极具讽刺意味的表达方式瞬间在社交媒体上引发热议。
技术逻辑还原
OpenAI此前宣布将在ChatGPT免费版和每月8美元的计划中引入广告收入,但明确表示广告不会出现在聊天消息的回复内容内部,而是显示在回复外部并清晰标注为广告。Anthropic的广告创意实际上是对这一场景的夸大演绎,并非OpenAI的实际产品形态。OpenAI CEO Sam Altman在X平台上公开回应,称Anthropic的广告"有趣但明显不诚实",并强调OpenAI的核心广告原则明确禁止这种行为。Altman还指出,Anthropic在市场认知上与OpenAI差距悬殊——全球约95%的人甚至不知道Anthropic的存在。
行业冲击波
这场广告战暴露了AI行业竞争格局的深层矛盾。Sam Altman的回应帖子获得了880万次浏览,而Anthropic的原广告仅有270万次——一次本应打击对手的营销行动,反而为对方带来了三倍流量。有从业者戏谑这是"Kendrick vs Drake"式的嘻哈对决现实版。值得关注的是,OpenAI声称仅德克萨斯州使用ChatGPT免费版的人数就超过了整个美国使用Claude的总人数,这意味着Anthropic虽然技术口碑极佳,但用户规模仍是其致命短板。
动态二:同天发布的旗舰编码模型直接对决
事件背景
两家公司在2025年2月5日几乎同时发布了新一代编码模型。Anthropic的Claude Opus 4.6于上午9点发布,OpenAI的GPT-5.3 Codex于约9点45分至10点20分之间发布。据TechCrunch报道,Anthropic原本计划与OpenAI同时发布(上午10点),但临时将发布时间提前了15分钟,以微弱优势"率先发布"最新模型。
技术逻辑还原
Claude Opus 4.6的核心升级包括:100万token上下文窗口(约75万词输入输出总量)、自适应思考能力(根据上下文线索自动决定推理时长)、支持多任务并行处理、以及在Claude Code中可组建Agent团队协同工作。该模型在知识工作、Agentic搜索和"人类终极考试"基准测试中均声称表现最佳。
GPT-5.3 Codex则被OpenAI定位为"迄今为止最强大的Agentic编码模型"。其最大亮点在于:OpenAI使用该模型的早期版本自行调试训练过程、管理部署、诊断测试结果——这意味着AI已开始用于改进AI自身,形成自循环加速。OpenAI承认GPT-5.3尚未开放API,仅可通过Codex App和付费ChatGPT计划访问。
行业冲击波
实测对比数据显示,两者各擅胜场。Terminal Bench 2.0测试中,Opus 4.6得分65.4%,GPT-5.3得分77.3%,OpenAI明显领先。然而在Agentic Computer Use(OS World)测试中,Opus 4.6以72.7%击败GPT-5.3的64.7%,Anthropic在计算机操作能力上扳回一城。由于两者使用的基准测试集存在差异,严格的横向对比并不公平,但可以确认:程序员群体已成为两大厂商争夺的核心用户战场。
4. 深度实测 SOP 与性能报告
实测表现还原
视频博主进行了实地对比测试:同时向Claude Opus 4.6和GPT-5.3 Codex发送相同Prompt:“为一家位于圣地亚哥的冲浪板公司设计一个精美的着陆页”。测试结果如下:
Claude Opus 4.6:先完成生成,用时约15秒。生成的页面包含懒加载动画、滚动时的视觉交互、SVG矢量图形配色方案选择了非基础色调,整体风格干净简洁。
GPT-5.3 Codex:晚约15秒完成。页面包含冲浪板入园动画、滚动时的弹出式动画、采用了emoji元素(博主认为可以稍大一些)。背景视觉效果更现代、更时尚。
博主最终个人偏好选择了GPT-5.3生成的版本,认为背景更具现代感,但强调两者都已达到"AI编码真正好用"的水平,尤其对于构建简单网站而言。
配置与运行 SOP
Claude Opus 4.6获取途径:
- 访问Claude官网直接使用
- 通过API调用(开发者)
- Cursor IDE已集成Opus 4.6
GPT-5.3 Codex获取途径:
- 下载Codex App(全新独立应用)
- 付费ChatGPT计划用户
- API暂未开放
“真相"核查
- Anthropic广告中的广告插入方式与OpenAI实际计划不符,属于创意演绎而非产品事实
- Opus 4.6的自适应思考功能实际上ChatGPT已支持一段时间,并非全新特性
- 两者在严格基准测试对比上存在"选择性地展示"各自优势项目的情况
- GPT-5.3 Codex的API发布时间未确定,开发者当前无法大规模集成
5. 行业清醒剂与非共识观察
反直觉结论
尽管AI圈从业者几乎一致认为Claude是"最佳编程模型”,但根据GP Trends数据,Claude的月活跃用户数仅为1550万,不仅远低于ChatGPT的4.15亿,甚至落后于Perplexity、DeepSeek和Gemini。这一数据揭示了技术圈与大众市场的认知严重割裂——AI从业者的偏好并不能代表真实市场格局。
实战陷阱
- 基准测试的选择性展示:两家厂商在发布时均选择对自身有利的测试集进行宣传,Terminal Bench vs SWE Bench的差异导致对比缺乏公信力
- API可用性陷阱:GPT-5.3 Codex虽已发布但API缺失,开发者实际能用到的能力受限
- 营销话术与产品现实的差距:Anthropic广告中演示的"AI回答中插入广告"并非OpenAI的实际产品形态
- 自适应思考的同质化:Claude Opus 4.6重点宣传的"自适应思考"功能,ChatGPT实际上早已实现
6. 金句
“95%的人甚至不知道Anthropic存在,但AI圈子里人人都在讨论Claude——这就是技术圈与真实市场的割裂。”
“AI已经开始用AI来改进AI了,自循环一旦开启,迭代速度只会越来越快。”
“有竞争是好事,如果只有一家公司决定在AI里加广告且无人反对,那这种情况就会变成我们不得不接受的常态。”
“模型基准测试水分很大,各家都在挑选对自己有利的战场,真正有用的还是看实际干活的表现。”
📺 视频原片
视频ID: 9f2egsZZjnw