原始标题: AI News: Everyone’s Leaving ChatGPT!
发布日期: 2026-03-06 | 来源频道: @mreflow
📝 深度摘要
1. 讨论背景与核心主题
本视频为 mreflow 频道的 AI 周报,由主理人主持录制。视频发布于 2025 年 3 月 6 日(周五),录制于 3 月 5 日。核心主题聚焦本周 AI 领域的重大动态,包括 OpenAI 连续发布 GPT-5.3 与 5.4 模型、Google 推出 Gemini 3.1 Flash Light 与 Notebook LM 全新功能、以及 Anthropic 与美国国防部之间的激烈冲突。同时,视频还报道了 Claude 趁势崛起、Meta AI 眼镜隐私争议等热点事件。本期内容旨在为观众提供客观、深度的 AI 行业分析,帮助普通用户与技术从业者理解当前 AI 发展格局及其对工作流的影响。
2. 核心干货概览
| 类别 | 核心动态 / 工具 | 生产力价值 / 硬件门槛 |
|---|---|---|
| 模型/产品更新 | GPT 5.4 / Gemini 3.1 Flash Light / Notebook LM 电影级概览 / Claude 记忆功能免费开放 | 5.4 在编码能力和工具调用方面有小幅提升;Flash Light 强调高速与低成本;Notebook LM 可生成 6 分钟动画视频(需 Ultra 订阅,250 美元/月);Claude 记忆功能向免费用户开放 |
| 硬件/环境要求 | iPhone 可运行 Qwen 3.5(8 亿至 90 亿参数);Microsoft Phi-4-reasoning-vision 为 150 亿参数模型,需中高端 GPU | iPhone 15 Pro 及以上可本地离线运行 Qwen 3.5;普通桌面级 GPU 可运行 Phi-4 |
| 隐私与安全 | Anthropic 被五角大楼列入供应链风险名单;Meta AI 眼镜数据被传至非洲人工审核;OpenAI 获得国防部合同 | OpenAI 承诺三红线:不用于大规模国内监视、不用于全自主武器、不用于高风险自动化决策;Claude 推出便捷迁移工具吸引 OpenAI 用户 |
3. 每周要闻与多模型观察
动态一:OpenAI 连续发布 GPT-5.3 与 5.4 模型
事件背景:OpenAI 在本周内先后发布 GPT-5.3 和 GPT-5.4 模型,这是自 GPT-5 系列发布以来的首次更新。5.4 版本在付费计划中提供 Thinking 5.4 和 Pro 5.4 两个变体。
技术逻辑还原:根据官网演示,5.4 模型在以下方面有所改进:网页搜索能力提升,可帮助用户更精准地获取实时信息;文档处理和表格生成能力增强,输出结果更加美观且信息深度增加;工具调用能力显著提升,能够代用户执行操作,例如自动访问 Gmail 为邮件加星标和添加标签、批量填写表单等。OpenAI 还展示了 5.4 仅凭单一提示词即可构建主题公园模拟游戏、回合制 RPG 游戏、金门大桥飞行模拟等复杂交互式应用。
行业冲击波:mreflow 指出,这些改进对普通 ChatGPT 日常用户的感知提升有限,升级更像是"边际改进"。真正受益的是开发者群体——模型在编码能力上的提升、对 API 工具调用的优化,使得构建自动化工作流变得更加容易。OpenAI 聘请了 Peter Steinberger(OpenClaw 的核心开发者),这进一步印证了公司正在将战略重心转向 AI Agent(智能体)开发。然而,Pro 模型和 API 的价格有所上涨,且部分演示可能经过精心挑选,实际表现需用户自行验证。
动态二:Google 推出 Gemini 3.1 Flash Light 与 Notebook LM 电影级功能
事件背景:Google 本周发布了两项重要更新。一是 Gemini 3.1 Flash Light,这是一款强调速度和成本效率的轻量级模型;二是 Notebook LM 新增电影级视频概览功能,目前仅向 Ultra 订阅用户开放(月费 250 美元)。
技术逻辑还原:Flash Light 模型定位明确——不追求极致推理能力,而是以极快响应速度和极低 API 成本满足高频调用场景。mreflow 演示了自己构建的 YouTube 缩略图批量处理工具:图片拖入后几乎瞬间完成描述生成,且费用低廉。该模型适合需要快速处理大量数据的开发者和企业工作流。
Notebook LM 的电影级概览功能则代表了 AI 内容生成的另一方向。该功能整合了 Gemini 3 Nano、Banana [?] 和 VO3.1 [?] 模型,可根据用户上传的文档自动生成 6 分钟带有动态动画的讲解视频。与旧版"幻灯片式"视频不同,新版内置了实时动画(motion graphics),视觉效果接近专业级动态设计。mreflow 用"Birds Aren’t Real"(反政府阴谋论主题)文档测试,生成了包含信息图表、动画演示和 AI 语音解说的完整视频。
行业冲击波:mreflow 评价这是 Notebook LM"最令人印象深刻的功能更新",甚至可能取代部分 After Effects 工作流程。然而,高昂的订阅门槛(250 美元/月)将大多数用户挡在门外。此外,Google 还在 AI Mode 中引入了 Canvas 功能,允许用户直接编写和运行 HTML/JavaScript 代码,类似 Claude 和 ChatGPT 的编程辅助体验。
动态三:Anthropic vs. Pentagon——AI 公司与军方的激烈对峙
事件背景:这是本期周报的核心事件。Anthropic(Claude 母公司)此前与美国国防部签署了一份价值 2 亿美元的合同,成为唯一能够处理机密信息的 AI 模型供应商。该模型甚至被用于协助追捕委内瑞拉总统马杜罗。然而,当 Anthropic 询问国防部是否确实使用了其技术时,引发了五角大楼的强烈不满。
技术逻辑还原:Anthropic 明确划定两条红线——禁止将 Claude 用于对美国公民的大规模监视、禁止用于无人类干预的全自主武器系统。国防部拒绝接受这些限制,要求获得"所有合法用途"的完全使用权,否则将 Anthropic 列入"供应链风险"名单(实质上是政府黑名单)。Anthropic 坚守立场,国防部随后宣布将其列入供应链风险名单。
行业冲击波:OpenAI 抓住机会,在同一天宣布与国防部签署类似协议,但额外增加了第三条红线——禁止将技术用于"高风险自动化决策"。OpenAI 强调通过"多层方法"保护红线:保留对安全栈的完全裁量权、通过云端部署、由 cleared personnel(获得安全许可的人员)参与监督。然而,Bloomberg 报道指出,Sam Altman 私下告诉员工:“OpenAI 对国防部决策没有发言权。”
市场反应:用户迅速用脚投票。TechCrunch 报道大量用户从 ChatGPT 转向 Claude;Claude 跃升至 App Store 下载榜第一(此前在 100 名左右)。从 Anthropic 被列入名单的周五到下周一,ChatGPT 卸载量激增 295%。Ramp 公司的数据显示,企业级市场已发生逆转——去年中 OpenAI 在企业聊天市场遥遥领先,如今 Anthropic 已实现反超。Anthropic 年收入预计接近 200 亿美元,较去年翻倍。
后续发展:Anthropic 内部备忘录泄露(据 The Information 报道),备忘录批评政府是因为 Anthropic 未向 Trump 捐款、未进行"独裁者式赞美"、支持 AI 监管、坚守红线而非"配合演出"。Anthropic CEO 已发表声明称这些备忘录是"气头上的产物"。截至视频录制日(3 月 5 日),国防部已正式通知 Anthropic 被列为供应链风险,但双方仍在谈判中。mreflow 预测这可能是"一场过度扩大的谈判策略",最终双方将达成某种妥协。
动态四:Claude 趁势反击——免费开放记忆功能与便捷迁移工具
事件背景:在 OpenAI 与国防部交易的舆论危机中,Claude 迅速推出两项针对性功能:一是将记忆功能(Memory)向免费用户开放,二是发布便捷的账户迁移工具,允许用户将 OpenAI 中的记忆和偏好导入 Claude。
技术逻辑还原:此前记忆功能仅面向付费用户,现在免费用户也可使用。迁移工具的设计极为"顺滑"——用户只需几步即可将 ChatGPT 中积累的所有对话上下文、偏好设置导入 Claude,实现无缝切换。Claude 甚至在公告中"贴心"提示:“如果你在 ChatGPT 免费版中有记忆和内容,过来吧,我们也会为你保留这些。“这则广告没有点名 OpenAI,但针对意味明显。
行业冲击波:这是教科书级的"机会主义营销”。Claude 精准抓住了 OpenAI 用户对国防部合作的愤怒情绪,配合免费策略和迁移便利性,成功吸引大量"难民"用户。App Store 排名从百名开外跃升至第一,证明了市场情绪的转化效率。
动态五:其他重要更新速览
阿里巴巴 Qwen 3.5:开源模型,新增四个参数版本(8 亿、20 亿、40 亿、90 亿)。mreflow 透露他制作了专门教程,展示如何在 iPhone 上离线运行该模型——无需网络连接,完全本地处理。
xAI Grok 4.20 Beta 2:更新了指令遵循能力、减少了幻觉、提升科学文本处理质量、改善了图像搜索触发精度和多图像渲染稳定性。
Microsoft Phi-4-reasoning-vision:15 亿参数的紧凑型多模态推理模型,平衡了推理能力、效率和训练数据需求。在数学、科学推理和用户界面理解方面表现优异,定位与 Qwen 3.5 竞争,但参数规模更大。
OpenAI Codex 桌面端:此前仅支持 macOS 的 Codex 编程助手现已登陆 Windows。界面简洁类似 ChatGPT,适合编程初学者。
Meta AI 眼镜隐私丑闻:据大规模深度调查报道,Meta AI 眼镜用户在隐私设置不当的情况下,视频流数据会被传送到非洲公司进行人工审核。内容包括但不限于:用户在浴室、更衣室、银行(信用卡号)等敏感场景的画面。英国数据监管机构 ICO 已介入调查,Meta 面临新的诉讼风险。
4. 深度实测 SOP 与性能报告
Notebook LM 电影级功能实测
使用步骤:1. 登录 Notebook LM 账户;2. 选择或创建笔记本;3. 点击"Video Overview"选项;4. 选择"Cinematic"模式(仅 Ultra 订阅可见);5. 等待 6 分钟视频生成。
实测表现:mreflow 用"Birds Aren’t Real"讽刺阴谋论文档测试。生成结果包含:VO3.1 语音解说、Gemini Nano 生成的动态图像、类似 After Effects 的 motion graphics 动画。开场动画效果尤为突出,信息图表与演讲内容同步切换。
评价:mreflow 强调这是他见过"Notebook LM 最令人兴奋的功能更新”,但 250 美元/月的 Ultra 订阅门槛极高。他同时指出,演示内容可能经过筛选,实际成功率未知。
Qwen 3.5 本地运行测试
使用场景:mreflow 演示了在 iPhone 上运行 Qwen 3.5(8 亿参数版本)的完整流程。该模型可在无网络环境下工作,完全离线。
性能表现:响应速度可接受,生成质量在轻量级任务(如简单问答、文本生成)上表现良好,适合移动端离线 AI 助手场景。
5. 行业清醒剂与非共识观察
反直觉结论
普通用户难以感知模型升级:mreflow 在本期节目中多次强调,本周发布的新模型(GPT-5.4、Gemini 3.1 Flash Light)对"日常 ChatGPT 用户"的实际体验提升非常有限。真正的性能差异体现在编码任务、API 工具调用和自动化工作流构建上。他批评了那些"每个新模型都吹成 AGI 前奏"的短视频博主,认为这种营销话术对用户决策没有实际帮助。
AI 公司与政府的合作不可避免:尽管用户对 OpenAI 与国防部合作表达了强烈不满,但从商业角度看,AI 公司进入政府供应链是必然趋势。mreflow 指出,Anthropic 和 OpenAI 最终都会以某种形式与国防部达成协议,“供应链风险” designations 很可能只是谈判策略。
实战陷阱
高端功能的订阅门槛:Notebook LM 电影级功能需要 250 美元/月的 Ultra 订阅,这使其成为"高端玩家专属"。对于大多数个人用户而言,性价比极低。
开源模型的硬件限制:虽然 Qwen 3.5 可以在 iPhone 上运行,但 90 亿参数版本仍需要较高配置的移动设备。普通手机用户可能面临性能瓶颈。
智能眼镜的隐私隐患:Meta AI 眼镜的隐私问题揭示了一个被忽视的风险——可穿戴 AI 设备可能在你不知情的情况下将敏感画面上传至人工审核流程。用户必须主动检查并关闭默认的数据分享设置。
6. 金句
- “这些模型更新对普通日常 ChatGPT 用户来说体验提升是边际的。真正的差异在编码和 API 层面。”
- “我不想参与那种把每个新模型都吹成’有史以来最牛 X‘的游戏的游戏。”
- “现实是大多数人用这些模型不会有任何感觉。就像普通人用 AI,就是’感觉它变聪明了一点’。”
- “Anthropic 被列入供应链风险,这本质上是五角大楼的谈判施压策略。双方最终会达成某种妥协。”
- “Claude 的记忆功能免费开放 + 迁移工具,这是一种教科书级的机会主义营销。”
- “Meta AI 眼镜的隐私问题细思极恐——你在浴室、更衣室、银行的一切画面可能被传送到非洲进行人工审核。”
- “OpenAI 告诉员工:‘我们对国防部决策没有发言权。’ 这可能是最讽刺的真相。”
📺 视频原片
视频ID: JH2ak7kS43E