原始标题: New Claude & GPT Models Just Dropped (It’s War!)

发布日期: 2026-02-05 | 来源频道: @mreflow

📝 深度摘要

AI 周报与硬核实战测评报告

1. 对话背景与核心主题

2025年2月5日，AI领域迎来了一场史无前例的正面交锋。Anthropic与OpenAI这两大巨头在同一天、相隔仅约15至35分钟内相继发布了各自的最新旗舰模型。Anthropic于太平洋时间上午9点左右发布了Claude Opus 4.6，而OpenAI则在上午10点左右推出了GPT-5.3 Codex。这不仅是产品发布的直接碰撞，更是围绕Super Bowl广告营销展开的一场舆论战。视频博主作为中立的技术观察者，旨在还原这场"AI战争"的技术本质与商业博弈，为程序员群体及AI从业者提供客观的选型参考。

2. 核心干货概览

类别	核心动态 / 工具	生产力价值 / 硬件门槛
模型/产品更新	Claude Opus 4.6 / GPT-5.3 Codex	两者均为面向程序员的编码模型，Opus 4.6上下文窗口达100万token，GPT-5.3在Terminal Bench 2.0测试中得分77.3%领先
硬件/环境要求	Claude可通过API和官网直接调用；GPT-5.3 Codex需通过Codex App或付费ChatGPT计划使用，API尚未开放	无本地运行需求，纯云端调用；对网络稳定性和API配额有依赖
隐私与安全	两者均为云端服务，用户数据上传至服务商服务器	数据主权归服务商，开发者需关注API数据使用政策

3. 每周要闻与多模型观察

动态一：Anthropic vs OpenAI 的 Super Bowl 广告大战

事件背景

Anthropic在2025年Super Bowl期间投放了四则广告，核心创意是在AI给出答案的中间插入广告，以此嘲讽OpenAI将在ChatGPT中引入广告的计划。视频中展示了其中一个广告片段：用户询问"如何与母亲更好地沟通"，AI给出回答后，中间突然插入一个名为"Golden Encounters"的成熟女性约会网站广告。这种极具讽刺意味的表达方式瞬间在社交媒体上引发热议。

技术逻辑还原

OpenAI此前宣布将在ChatGPT免费版和每月8美元的计划中引入广告收入，但明确表示广告不会出现在聊天消息的回复内容内部，而是显示在回复外部并清晰标注为广告。Anthropic的广告创意实际上是对这一场景的夸大演绎，并非OpenAI的实际产品形态。OpenAI CEO Sam Altman在X平台上公开回应，称Anthropic的广告"有趣但明显不诚实"，并强调OpenAI的核心广告原则明确禁止这种行为。Altman还指出，Anthropic在市场认知上与OpenAI差距悬殊——全球约95%的人甚至不知道Anthropic的存在。

行业冲击波

这场广告战暴露了AI行业竞争格局的深层矛盾。Sam Altman的回应帖子获得了880万次浏览，而Anthropic的原广告仅有270万次——一次本应打击对手的营销行动，反而为对方带来了三倍流量。有从业者戏谑这是"Kendrick vs Drake"式的嘻哈对决现实版。值得关注的是，OpenAI声称仅德克萨斯州使用ChatGPT免费版的人数就超过了整个美国使用Claude的总人数，这意味着Anthropic虽然技术口碑极佳，但用户规模仍是其致命短板。

动态二：同天发布的旗舰编码模型直接对决

事件背景

两家公司在2025年2月5日几乎同时发布了新一代编码模型。Anthropic的Claude Opus 4.6于上午9点发布，OpenAI的GPT-5.3 Codex于约9点45分至10点20分之间发布。据TechCrunch报道，Anthropic原本计划与OpenAI同时发布（上午10点），但临时将发布时间提前了15分钟，以微弱优势"率先发布"最新模型。

技术逻辑还原

Claude Opus 4.6的核心升级包括：100万token上下文窗口（约75万词输入输出总量）、自适应思考能力（根据上下文线索自动决定推理时长）、支持多任务并行处理、以及在Claude Code中可组建Agent团队协同工作。该模型在知识工作、Agentic搜索和"人类终极考试"基准测试中均声称表现最佳。

GPT-5.3 Codex则被OpenAI定位为"迄今为止最强大的Agentic编码模型"。其最大亮点在于：OpenAI使用该模型的早期版本自行调试训练过程、管理部署、诊断测试结果——这意味着AI已开始用于改进AI自身，形成自循环加速。OpenAI承认GPT-5.3尚未开放API，仅可通过Codex App和付费ChatGPT计划访问。

行业冲击波

实测对比数据显示，两者各擅胜场。Terminal Bench 2.0测试中，Opus 4.6得分65.4%，GPT-5.3得分77.3%，OpenAI明显领先。然而在Agentic Computer Use（OS World）测试中，Opus 4.6以72.7%击败GPT-5.3的64.7%，Anthropic在计算机操作能力上扳回一城。由于两者使用的基准测试集存在差异，严格的横向对比并不公平，但可以确认：程序员群体已成为两大厂商争夺的核心用户战场。

4. 深度实测 SOP 与性能报告

实测表现还原

视频博主进行了实地对比测试：同时向Claude Opus 4.6和GPT-5.3 Codex发送相同Prompt：“为一家位于圣地亚哥的冲浪板公司设计一个精美的着陆页”。测试结果如下：

Claude Opus 4.6：先完成生成，用时约15秒。生成的页面包含懒加载动画、滚动时的视觉交互、SVG矢量图形配色方案选择了非基础色调，整体风格干净简洁。

GPT-5.3 Codex：晚约15秒完成。页面包含冲浪板入园动画、滚动时的弹出式动画、采用了emoji元素（博主认为可以稍大一些）。背景视觉效果更现代、更时尚。

博主最终个人偏好选择了GPT-5.3生成的版本，认为背景更具现代感，但强调两者都已达到"AI编码真正好用"的水平，尤其对于构建简单网站而言。

配置与运行 SOP

Claude Opus 4.6获取途径：

访问Claude官网直接使用
通过API调用（开发者）
Cursor IDE已集成Opus 4.6

GPT-5.3 Codex获取途径：

下载Codex App（全新独立应用）
付费ChatGPT计划用户
API暂未开放

“真相"核查

Anthropic广告中的广告插入方式与OpenAI实际计划不符，属于创意演绎而非产品事实
Opus 4.6的自适应思考功能实际上ChatGPT已支持一段时间，并非全新特性
两者在严格基准测试对比上存在"选择性地展示"各自优势项目的情况
GPT-5.3 Codex的API发布时间未确定，开发者当前无法大规模集成

5. 行业清醒剂与非共识观察

反直觉结论

尽管AI圈从业者几乎一致认为Claude是"最佳编程模型”，但根据GP Trends数据，Claude的月活跃用户数仅为1550万，不仅远低于ChatGPT的4.15亿，甚至落后于Perplexity、DeepSeek和Gemini。这一数据揭示了技术圈与大众市场的认知严重割裂——AI从业者的偏好并不能代表真实市场格局。

实战陷阱

基准测试的选择性展示：两家厂商在发布时均选择对自身有利的测试集进行宣传，Terminal Bench vs SWE Bench的差异导致对比缺乏公信力
API可用性陷阱：GPT-5.3 Codex虽已发布但API缺失，开发者实际能用到的能力受限
营销话术与产品现实的差距：Anthropic广告中演示的"AI回答中插入广告"并非OpenAI的实际产品形态
自适应思考的同质化：Claude Opus 4.6重点宣传的"自适应思考"功能，ChatGPT实际上早已实现

6. 金句

“95%的人甚至不知道Anthropic存在，但AI圈子里人人都在讨论Claude——这就是技术圈与真实市场的割裂。”

“AI已经开始用AI来改进AI了，自循环一旦开启，迭代速度只会越来越快。”

“有竞争是好事，如果只有一家公司决定在AI里加广告且无人反对，那这种情况就会变成我们不得不接受的常态。”

“模型基准测试水分很大，各家都在挑选对自己有利的战场，真正有用的还是看实际干活的表现。”

📺 视频原片

视频ID: 9f2egsZZjnw

📝 深度摘要#

AI 周报与硬核实战测评报告#

1. 对话背景与核心主题#

2. 核心干货概览#

3. 每周要闻与多模型观察#

动态一：Anthropic vs OpenAI 的 Super Bowl 广告大战#

动态二：同天发布的旗舰编码模型直接对决#

4. 深度实测 SOP 与性能报告#

实测表现还原#

配置与运行 SOP#

“真相"核查#

5. 行业清醒剂与非共识观察#

反直觉结论#

实战陷阱#

6. 金句#

📺 视频原片#