AI新闻：所有人都在离开ChatGPT！

原始标题: AI News: Everyone’s Leaving ChatGPT!

发布日期: 2026-03-06 | 来源频道: @mreflow

📝 深度摘要

1. 讨论背景与核心主题

本视频为 mreflow 频道的 AI 周报，由主理人主持录制。视频发布于 2025 年 3 月 6 日（周五），录制于 3 月 5 日。核心主题聚焦本周 AI 领域的重大动态，包括 OpenAI 连续发布 GPT-5.3 与 5.4 模型、Google 推出 Gemini 3.1 Flash Light 与 Notebook LM 全新功能、以及 Anthropic 与美国国防部之间的激烈冲突。同时，视频还报道了 Claude 趁势崛起、Meta AI 眼镜隐私争议等热点事件。本期内容旨在为观众提供客观、深度的 AI 行业分析，帮助普通用户与技术从业者理解当前 AI 发展格局及其对工作流的影响。

2. 核心干货概览

类别	核心动态 / 工具	生产力价值 / 硬件门槛
模型/产品更新	GPT 5.4 / Gemini 3.1 Flash Light / Notebook LM 电影级概览 / Claude 记忆功能免费开放	5.4 在编码能力和工具调用方面有小幅提升；Flash Light 强调高速与低成本；Notebook LM 可生成 6 分钟动画视频（需 Ultra 订阅，250 美元/月）；Claude 记忆功能向免费用户开放
硬件/环境要求	iPhone 可运行 Qwen 3.5（8 亿至 90 亿参数）；Microsoft Phi-4-reasoning-vision 为 150 亿参数模型，需中高端 GPU	iPhone 15 Pro 及以上可本地离线运行 Qwen 3.5；普通桌面级 GPU 可运行 Phi-4
隐私与安全	Anthropic 被五角大楼列入供应链风险名单；Meta AI 眼镜数据被传至非洲人工审核；OpenAI 获得国防部合同	OpenAI 承诺三红线：不用于大规模国内监视、不用于全自主武器、不用于高风险自动化决策；Claude 推出便捷迁移工具吸引 OpenAI 用户

3. 每周要闻与多模型观察

动态一：OpenAI 连续发布 GPT-5.3 与 5.4 模型

事件背景：OpenAI 在本周内先后发布 GPT-5.3 和 GPT-5.4 模型，这是自 GPT-5 系列发布以来的首次更新。5.4 版本在付费计划中提供 Thinking 5.4 和 Pro 5.4 两个变体。

技术逻辑还原：根据官网演示，5.4 模型在以下方面有所改进：网页搜索能力提升，可帮助用户更精准地获取实时信息；文档处理和表格生成能力增强，输出结果更加美观且信息深度增加；工具调用能力显著提升，能够代用户执行操作，例如自动访问 Gmail 为邮件加星标和添加标签、批量填写表单等。OpenAI 还展示了 5.4 仅凭单一提示词即可构建主题公园模拟游戏、回合制 RPG 游戏、金门大桥飞行模拟等复杂交互式应用。

行业冲击波：mreflow 指出，这些改进对普通 ChatGPT 日常用户的感知提升有限，升级更像是"边际改进"。真正受益的是开发者群体——模型在编码能力上的提升、对 API 工具调用的优化，使得构建自动化工作流变得更加容易。OpenAI 聘请了 Peter Steinberger（OpenClaw 的核心开发者），这进一步印证了公司正在将战略重心转向 AI Agent（智能体）开发。然而，Pro 模型和 API 的价格有所上涨，且部分演示可能经过精心挑选，实际表现需用户自行验证。

动态二：Google 推出 Gemini 3.1 Flash Light 与 Notebook LM 电影级功能

事件背景：Google 本周发布了两项重要更新。一是 Gemini 3.1 Flash Light，这是一款强调速度和成本效率的轻量级模型；二是 Notebook LM 新增电影级视频概览功能，目前仅向 Ultra 订阅用户开放（月费 250 美元）。

技术逻辑还原：Flash Light 模型定位明确——不追求极致推理能力，而是以极快响应速度和极低 API 成本满足高频调用场景。mreflow 演示了自己构建的 YouTube 缩略图批量处理工具：图片拖入后几乎瞬间完成描述生成，且费用低廉。该模型适合需要快速处理大量数据的开发者和企业工作流。

Notebook LM 的电影级概览功能则代表了 AI 内容生成的另一方向。该功能整合了 Gemini 3 Nano、Banana [?] 和 VO3.1 [?] 模型，可根据用户上传的文档自动生成 6 分钟带有动态动画的讲解视频。与旧版"幻灯片式"视频不同，新版内置了实时动画（motion graphics），视觉效果接近专业级动态设计。mreflow 用"Birds Aren’t Real"（反政府阴谋论主题）文档测试，生成了包含信息图表、动画演示和 AI 语音解说的完整视频。

行业冲击波：mreflow 评价这是 Notebook LM"最令人印象深刻的功能更新"，甚至可能取代部分 After Effects 工作流程。然而，高昂的订阅门槛（250 美元/月）将大多数用户挡在门外。此外，Google 还在 AI Mode 中引入了 Canvas 功能，允许用户直接编写和运行 HTML/JavaScript 代码，类似 Claude 和 ChatGPT 的编程辅助体验。

动态三：Anthropic vs. Pentagon——AI 公司与军方的激烈对峙

事件背景：这是本期周报的核心事件。Anthropic（Claude 母公司）此前与美国国防部签署了一份价值 2 亿美元的合同，成为唯一能够处理机密信息的 AI 模型供应商。该模型甚至被用于协助追捕委内瑞拉总统马杜罗。然而，当 Anthropic 询问国防部是否确实使用了其技术时，引发了五角大楼的强烈不满。

技术逻辑还原：Anthropic 明确划定两条红线——禁止将 Claude 用于对美国公民的大规模监视、禁止用于无人类干预的全自主武器系统。国防部拒绝接受这些限制，要求获得"所有合法用途"的完全使用权，否则将 Anthropic 列入"供应链风险"名单（实质上是政府黑名单）。Anthropic 坚守立场，国防部随后宣布将其列入供应链风险名单。

行业冲击波：OpenAI 抓住机会，在同一天宣布与国防部签署类似协议，但额外增加了第三条红线——禁止将技术用于"高风险自动化决策"。OpenAI 强调通过"多层方法"保护红线：保留对安全栈的完全裁量权、通过云端部署、由 cleared personnel（获得安全许可的人员）参与监督。然而，Bloomberg 报道指出，Sam Altman 私下告诉员工：“OpenAI 对国防部决策没有发言权。”

市场反应：用户迅速用脚投票。TechCrunch 报道大量用户从 ChatGPT 转向 Claude；Claude 跃升至 App Store 下载榜第一（此前在 100 名左右）。从 Anthropic 被列入名单的周五到下周一，ChatGPT 卸载量激增 295%。Ramp 公司的数据显示，企业级市场已发生逆转——去年中 OpenAI 在企业聊天市场遥遥领先，如今 Anthropic 已实现反超。Anthropic 年收入预计接近 200 亿美元，较去年翻倍。

后续发展：Anthropic 内部备忘录泄露（据 The Information 报道），备忘录批评政府是因为 Anthropic 未向 Trump 捐款、未进行"独裁者式赞美"、支持 AI 监管、坚守红线而非"配合演出"。Anthropic CEO 已发表声明称这些备忘录是"气头上的产物"。截至视频录制日（3 月 5 日），国防部已正式通知 Anthropic 被列为供应链风险，但双方仍在谈判中。mreflow 预测这可能是"一场过度扩大的谈判策略"，最终双方将达成某种妥协。

动态四：Claude 趁势反击——免费开放记忆功能与便捷迁移工具

事件背景：在 OpenAI 与国防部交易的舆论危机中，Claude 迅速推出两项针对性功能：一是将记忆功能（Memory）向免费用户开放，二是发布便捷的账户迁移工具，允许用户将 OpenAI 中的记忆和偏好导入 Claude。

技术逻辑还原：此前记忆功能仅面向付费用户，现在免费用户也可使用。迁移工具的设计极为"顺滑"——用户只需几步即可将 ChatGPT 中积累的所有对话上下文、偏好设置导入 Claude，实现无缝切换。Claude 甚至在公告中"贴心"提示：“如果你在 ChatGPT 免费版中有记忆和内容，过来吧，我们也会为你保留这些。“这则广告没有点名 OpenAI，但针对意味明显。

行业冲击波：这是教科书级的"机会主义营销”。Claude 精准抓住了 OpenAI 用户对国防部合作的愤怒情绪，配合免费策略和迁移便利性，成功吸引大量"难民"用户。App Store 排名从百名开外跃升至第一，证明了市场情绪的转化效率。

动态五：其他重要更新速览

阿里巴巴 Qwen 3.5：开源模型，新增四个参数版本（8 亿、20 亿、40 亿、90 亿）。mreflow 透露他制作了专门教程，展示如何在 iPhone 上离线运行该模型——无需网络连接，完全本地处理。

xAI Grok 4.20 Beta 2：更新了指令遵循能力、减少了幻觉、提升科学文本处理质量、改善了图像搜索触发精度和多图像渲染稳定性。

Microsoft Phi-4-reasoning-vision：15 亿参数的紧凑型多模态推理模型，平衡了推理能力、效率和训练数据需求。在数学、科学推理和用户界面理解方面表现优异，定位与 Qwen 3.5 竞争，但参数规模更大。

OpenAI Codex 桌面端：此前仅支持 macOS 的 Codex 编程助手现已登陆 Windows。界面简洁类似 ChatGPT，适合编程初学者。

Meta AI 眼镜隐私丑闻：据大规模深度调查报道，Meta AI 眼镜用户在隐私设置不当的情况下，视频流数据会被传送到非洲公司进行人工审核。内容包括但不限于：用户在浴室、更衣室、银行（信用卡号）等敏感场景的画面。英国数据监管机构 ICO 已介入调查，Meta 面临新的诉讼风险。

4. 深度实测 SOP 与性能报告

Notebook LM 电影级功能实测

使用步骤：1. 登录 Notebook LM 账户；2. 选择或创建笔记本；3. 点击"Video Overview"选项；4. 选择"Cinematic"模式（仅 Ultra 订阅可见）；5. 等待 6 分钟视频生成。

实测表现：mreflow 用"Birds Aren’t Real"讽刺阴谋论文档测试。生成结果包含：VO3.1 语音解说、Gemini Nano 生成的动态图像、类似 After Effects 的 motion graphics 动画。开场动画效果尤为突出，信息图表与演讲内容同步切换。

评价：mreflow 强调这是他见过"Notebook LM 最令人兴奋的功能更新”，但 250 美元/月的 Ultra 订阅门槛极高。他同时指出，演示内容可能经过筛选，实际成功率未知。

Qwen 3.5 本地运行测试

使用场景：mreflow 演示了在 iPhone 上运行 Qwen 3.5（8 亿参数版本）的完整流程。该模型可在无网络环境下工作，完全离线。

性能表现：响应速度可接受，生成质量在轻量级任务（如简单问答、文本生成）上表现良好，适合移动端离线 AI 助手场景。

5. 行业清醒剂与非共识观察

反直觉结论

普通用户难以感知模型升级：mreflow 在本期节目中多次强调，本周发布的新模型（GPT-5.4、Gemini 3.1 Flash Light）对"日常 ChatGPT 用户"的实际体验提升非常有限。真正的性能差异体现在编码任务、API 工具调用和自动化工作流构建上。他批评了那些"每个新模型都吹成 AGI 前奏"的短视频博主，认为这种营销话术对用户决策没有实际帮助。

AI 公司与政府的合作不可避免：尽管用户对 OpenAI 与国防部合作表达了强烈不满，但从商业角度看，AI 公司进入政府供应链是必然趋势。mreflow 指出，Anthropic 和 OpenAI 最终都会以某种形式与国防部达成协议，“供应链风险” designations 很可能只是谈判策略。

实战陷阱

高端功能的订阅门槛：Notebook LM 电影级功能需要 250 美元/月的 Ultra 订阅，这使其成为"高端玩家专属"。对于大多数个人用户而言，性价比极低。

开源模型的硬件限制：虽然 Qwen 3.5 可以在 iPhone 上运行，但 90 亿参数版本仍需要较高配置的移动设备。普通手机用户可能面临性能瓶颈。

智能眼镜的隐私隐患：Meta AI 眼镜的隐私问题揭示了一个被忽视的风险——可穿戴 AI 设备可能在你不知情的情况下将敏感画面上传至人工审核流程。用户必须主动检查并关闭默认的数据分享设置。

6. 金句

“这些模型更新对普通日常 ChatGPT 用户来说体验提升是边际的。真正的差异在编码和 API 层面。”
“我不想参与那种把每个新模型都吹成’有史以来最牛 X‘的游戏的游戏。”
“现实是大多数人用这些模型不会有任何感觉。就像普通人用 AI，就是’感觉它变聪明了一点’。”
“Anthropic 被列入供应链风险，这本质上是五角大楼的谈判施压策略。双方最终会达成某种妥协。”
“Claude 的记忆功能免费开放 + 迁移工具，这是一种教科书级的机会主义营销。”
“Meta AI 眼镜的隐私问题细思极恐——你在浴室、更衣室、银行的一切画面可能被传送到非洲进行人工审核。”
“OpenAI 告诉员工：‘我们对国防部决策没有发言权。’ 这可能是最讽刺的真相。”

📺 视频原片

视频ID: JH2ak7kS43E

📝 深度摘要#

1. 讨论背景与核心主题#

2. 核心干货概览#

3. 每周要闻与多模型观察#

动态一：OpenAI 连续发布 GPT-5.3 与 5.4 模型#

动态二：Google 推出 Gemini 3.1 Flash Light 与 Notebook LM 电影级功能#

动态三：Anthropic vs. Pentagon——AI 公司与军方的激烈对峙#

动态四：Claude 趁势反击——免费开放记忆功能与便捷迁移工具#

动态五：其他重要更新速览#

4. 深度实测 SOP 与性能报告#

Notebook LM 电影级功能实测#

Qwen 3.5 本地运行测试#

5. 行业清醒剂与非共识观察#

反直觉结论#

实战陷阱#

6. 金句#

📺 视频原片#