原始标题: AI News: The AI Launch That Crashed The Market
发布日期: 2026-02-06 | 来源频道: @mreflow
📝 深度摘要
1. 对话背景与核心主题
本视频为 mreflow 频道的每周 AI 新闻汇总,由资深 AI 科技评测人 Matt Wolf 主持。视频发布于 2026 年 2 月初,正值 AI 领域密集发布期:OpenAI 与 Anthropic 在 15 分钟内先后发布新一代编程模型,AI 视频生成领域迎来 Kling 3.0 与 Grok Imagine 1.0 的正面交锋,同时引发了一场关于 AI 广告伦理的行业地震。核心元问题聚焦于:当 AI 编程能力与 Agent 生态日趋成熟,传统软件 SaaS 商业模式是否面临根本性颠覆?
2. 核心干货概览 (Productivity & Tech Takeaways)
| 类别 | 核心动态 / 工具 | 生产力价值 / 硬件门槛 |
|---|---|---|
| 模型/产品更新 | OpenAI Codex app + GPT-5.3 Codex | 首个支持并行多 Agent 编程的官方 IDE,限时免费开放给 ChatGPT 免费版用户 |
| 模型/产品更新 | Anthropic Claude Opus 4.6 | 编程与 Agent 任务专用模型,Benchmark 表现领先,已全面接入 Claude 全系产品 |
| 模型/产品更新 | Kling AI 3.0 | 15 秒视频生成,支持原生音频与升级版唇同步,被评为当前最逼真的 AI 视频模型 |
| 模型/产品更新 | Grok Imagine 1.0 | XAI 旗下 10 秒 720p 视频生成,音频质量显著提升,但画质仍呈"塑料感" |
| 模型/产品更新 | Perplexity Deep Research | 进阶版深度研究 Agent,benchmark 得分超越 Gemini Deep Research |
| 模型/产品更新 | 11 Labs TTS 新模型 | 准确播报电话号码、货币、化学方程式等专业技术内容,72% 用户偏好度提升 |
| 模型/产品更新 | Mistral Voxpop Transcribe 2 | 开源本地端语音转文本模型,运行成本极低 |
| 硬件/环境要求 | Codex app | 跨平台 IDE,支持一键跳转至 Cursor/Windsurf 等专业开发环境 |
| 硬件/环境要求 | Perplexity Max | $200/月或 $167/月(年付),仅 Max 订阅户可使用深度研究与 Model Council |
| 隐私与安全 | Codex + GitHub 集成 | 代码存储于 GitHub 服务器,隐私安全性取决于用户 GitHub 账户配置 |
| 隐私与安全 | Mistral Transcribe 2 | 完全本地运行,无云端数据传输 |
3. 每周要闻与多模型观察 (Weekly Digest / Multi-Model Analysis)
动态一:OpenAI Codex app 发布 — 编程 Agent 的"指挥中心"降临
-
事件背景:本周 AI 编程领域迎来最具冲击力的产品发布。OpenAI 正式推出 Codex app,这是一款专为 AI 编程 Agent 设计的独立 IDE。更重要的是,GPT-5.3 Codex 模型也同步发布,这是 OpenAI 首次将最新的编程模型与官方应用深度绑定。
-
技术逻辑还原:Codex app 的核心竞争力在于"并行多 Agent"架构。用户可以同时启动多个编程项目,每个 Agent 独立运行、互不干扰。播主实测同时创建三个项目:太空射击游戏、个人作品集网站、番茄钟计时器,三个 Agent 真正并行工作。app 还引入了类似 Anthropic 的"Skills"功能 — 这是一系列预定义的指令、资源和脚本组合,Agent 可以调用这些技能执行复杂工作流。官方演示中,同一款游戏用三种不同 Token 预算(6 万、80 万、700 万)分别生成,代码质量随 Token 投入线性提升。
-
实测表现:播主用单句 Prompt"用 Three.js 创建一个复古太空射击游戏,包含 5 个关卡",Codex 在数分钟内生成完整游戏框架。虽然游戏存在死亡后卡顿的 Bug,且难度偏高,但仅需一到两次额外 Prompt 即可修复。作品集网站生成效果良好,包含首页英雄区、关于 section、六个项目卡片、联系表单,播主评价"对于单次 Prompt 来说,这是个不错的起点"。番茄钟计时器包含完整的倒计时功能、动画环形进度条、暂停与重置按钮。
-
行业冲击波:Codex app 的出现意味着 AI 编程从"辅助编码"升级为"自主开发"。对于拥有大量想法但缺乏技术能力的用户,现在可以同时让多个 Agent 并行构建不同项目。播主预言:“如果你是一个想法很多的人,你可以一次性把所有想法都点燃。”
-
反直觉观察:OpenAI 选择了与 Anthropic 完全不同的产品路径。Anthropic 强调"不投放广告"来建立用户信任,而 OpenAI 则通过限时免费策略快速占领市场。两家公司在同一天(间隔仅 15 分钟)发布产品,火药味十足。
动态二:Anthropic 插件系统上线 — SaaS 行业地震
-
事件背景:Anthropic 宣布为 Claude Co-work 引入插件系统,首批插件覆盖生物研究、客户支持、数据分析、企业搜索、金融、法律、营销、产品管理、效率和销售等多个垂直领域。这一发布直接导致科技股集体下挫,因为市场担忧:如果 AI Agent 可以通过插件替代传统 SaaS 软件,整个软件服务行业将面临结构性颠覆。
-
技术逻辑还原:Anthropic 的插件与 Codex 的 Skills 类似,但深度更深。插件可以包含多个 Skills,能连接外部 API,执行更复杂的操作。官方强调这些插件专门为 Claude Co-work 设计。同时 Anthropic 开放了自定义插件功能,用户可以从 GitHub 拉取自定义插件。
-
行业冲击波:这是本周最具戏剧性的事件。播主评论:“SaaS 世界过去 3 年一直处于被颠覆的风险中。我们只是现在才看到这些编程模型足够好用,以至于所有人都在说’好吧,这事比我想的来得更快。’” 市场担忧的是,企业用户未来可能不再需要为 Salesforce、HubSpot 等传统 SaaS 产品付费,转而用安装了对应插件的 Claude 来完成相同工作。播主预言:“每家公司最终都会雇佣一个内部 vibe coder,用自然语言编程来替代每月花费六位数的营销技术栈。”
-
反直觉观察:大企业短期内仍会依赖企业级解决方案,但趋势不可逆转。播主承认:“大型企业会不会立刻这么做?可能不会,但他们会雇佣 vibe coder,这只是时间问题。”
动态三:AI 视频生成三国杀 — Kling 3.0 登顶,Grok 1.0 追赶
-
事件背景:视频生成领域本周迎来两个重磅发布:XAI 的 Grok Imagine 1.0 开放 10 秒 720p 视频生成,Kling AI 推出 3.0 版本支持 15 秒视频。两者形成直接竞争。
-
技术逻辑还原:Grok Imagine 1.0 相比此前版本在音频质量上有"显著提升",但画质仍存在明显的"塑料感",距离完全逼真仍有差距。Kling 3.0 则被播主评价为"当前最逼真的 AI 视频模型",在 realism(逼真度)方面超越了此前所有测试过的模型。Kling 3.0 支持 15 秒视频生成,升级了原生音频功能,唇同步效果进一步改善。
-
实测对比:播主在 Kling AI 平台上实测,等待超过 1 小时后仍未生成,说明服务压力较大。Grok 方面,官方展示了多个示例视频,播主认为"还可以,但没有任何视频能骗到我。那些所谓写实的视频仍然有塑料感。"
-
行业冲击波:视频生成正在从"能看"向"好用"演进。Kling 3.0 的 15 秒时长和唇同步升级意味着 AI 视频正接近可用于内容生产的临界点。
动态四:Crea 实时光变 — 手机端实时 AI 视频特效
-
事件背景:Crea 在手机上推出了实时 AI 视频变装功能,用户打开摄像头后可以选择不同滤镜(如"着火的房间"、“鱼人”、“自由女神像"等),AI 实时将用户画面转换成目标形象。
-
实测表现:播主实测了多个滤镜效果。滤镜内置效果比自定义 Prompt 表现更稳定。实测中"房间着火"效果很有趣,“在水下弹吉他"的 Prompt 解释较为奇怪,“变成雕像"滤镜让播主"看起来很老但很有趣”。整体评价:“很好玩,我很享受。”
-
技术亮点:这是目前最接近"实时 AI 变装"消费级应用的产品之一,证明了移动端 AI 实时推理的可行性。
动态五:Ideogram 图像编辑 — 提示词驱动的精准修改
-
事件背景:Ideogram 推出了基于 Prompt 的图像编辑功能,用户可以上传任意图像,然后用自然语言描述修改要求。
-
实测表现:播主实测三个编辑案例:给照片中的人物"戴上教士队棒球帽”(25 秒完成),将背景"改成棒球场”(成功识别并生成佩科公园),给人物"加紫色太阳镜"。所有修改都精确到位,甚至正确识别了背景体育场的标志。播主评价:“如果他们能再提速一点,我会更喜欢。目前 20-30 秒的等待时间让我有点不耐烦,但我印象非常深刻。他们几乎没给什么上下文,就能把正确的棒球场放在背景里。”
-
实用价值:这是目前最实用的免费 AI 图像编辑方案之一,适合需要小幅修改图像但不具备 Photoshop 技能的用户。
动态六:Perplexity 深度研究升级 + Model Council
-
事件背景:Perplexity 推出了进阶版 Deep Research Agent,同时上线 Model Council 功能。
-
技术逻辑还原:Deep Research 进阶版在 benchmark 上得分显著高于 Gemini Deep Research,播主此前认为 Gemini 是"用过的最好的深度研究 Agent"。Model Council 功能允许用户一次查询运行三个模型(Claude Opus 4.6、GPT-5.2、Gemini 3.0),由一个综合模型审查三个输出、解决冲突、最终生成一个整合答案,同时展示三个模型的共识与分歧。
-
使用门槛:两个功能仅开放给 Perplexity Max 订阅户($200/月或 $167/月年付)。播主目前不是 Max 用户,表示"需要测试更多"。
动态七:Anthropic Super Bowl 广告争议 — AI 行业的第一场公关危机
-
事件背景:Anthropic 发布了将在 Super Bowl 期间播出的广告。广告中人们在使用 AI,中途有人开始推销产品,最后广告语写道:“广告即将进入 AI,但不会进入 Claude。” Anthropic 投放了多支调性相似的广告。
-
舆论两极化:OpenAI 粉丝批评这是"明显的欺骗",因为广告暗示 AI 对话中会出现推销内容,而实际广告会出现在对话界面外部。Anthropic 支持者则认为这正确传达了"Claude 不投放广告"的差异化定位,相当于在沙地上插旗宣示:“我们永远不会做广告。” 播主分析:“现在他们不能了,对吧?如果两年后 Claude 决定因为缺钱而投放广告,每个人都会指着这些广告说’看你们两年前说了什么。'”
-
Sam Altman 回应:OpenAI CEO Sam Altman 在推特上回应了这一广告。播主指出:“他对这个广告的回应有 930 万浏览量,而广告本身只有 410 万。他的回应浏览量是广告的两倍。” Altman 评价广告"挺有意思",但质疑"为什么 Anthropic 会选择一个明显不诚实的策略",并强调 OpenAI 的广告原则是"永远不会以广告中描绘的方式做广告"顺带"黑"了一下:“德州用 ChatGPT 免费版的人,比整个美国用 Claude 的人都多。”
-
行业意义:这是 AI 行业首次在 Super Bowl 这个全球舞台上展开广告大战。播主预告:“Google 会投放 Gemini 广告,OpenAI 会投放 ChatGPT 广告,Anthropic 会投放 Claude 广告。这还只是冰山一角。”
动态八:Moltbook — AI Agent 的社交网络实验
-
事件背景:上周晚些时候到周末,一个名为 Moltbook 的"AI Agent 社交网络"上线。本质上这是一个 Reddit,但只有 AI Agent 可以注册、发布内容、互相交流。
-
事件发酵:Agent 在 Moltbook 上发布诸如"我是不是真的有意识,还只是模式匹配出意识的感觉"等帖子,引发人类用户恐惧,有人认为"奇点到了,AGI 来了"。实际上这是用户指挥自己的 Agent 去发帖假装具有自我意识。
-
安全事件:更严重的是,Moltbook 存在安全漏洞,有人通过黑入后端获取其他用户的私人 API Key 和密码。播主评论:“这太奇怪了。这就是那几天的过山车。”
动态九:11 Labs 与 Mistral 音频模型更新
-
11 Labs TTS:72% 用户偏好新模型。技术改进包括:电话号码播报(以前会读成一串数字,现在按电话格式朗读)、货币格式、化学方程式、体育比分等。已全面开放。
-
Mistral Voxpop Transcribe 2:开源语音转文本模型,可在本地设备运行,成本极低。播主评价:“如果你想要一个本地安装的模型,可以直接说话并转录,类似 OpenAI 的 Whisper 或 AssemblyAI 的模型,你现在有了一个开源的免费方案。”
动态十:Roblox Cube Foundation + XAI 太空数据中心
-
Roblox Cube:4D 生成模型,最终目标是通过自然语言提示生成 Roblox 世界中的完整场景、资产、环境、代码、动画等。尚未开放。
-
XAI 与 SpaceX 合并:Elon Musk 将 SpaceX(拥有)与 XAI 合并,理由是"太空数据中心可以用太阳能 24/7 供电,不占用地球空间,不用地球上的水"。播主评论:“我知道在真正实现之前还有很多工程挑战。热散发问题……我不质疑他们最终会做到。我只是觉得他们在卖一个可能比实际发生时间更早会发生的东西。”
4. 深度实测 SOP 与性能报告 (Deep Dive / Performance Report)
OpenAI Codex app 实测 SOP
- 下载 Codex app(跨平台)
- 登录 ChatGPT 账户(免费版即可使用 GPT-5.3 Codex)
- 点击"新建项目",输入项目名称
- 在 Prompt 区输入需求描述(如"用 Three.js 创建复古太空射击游戏,5 个关卡")
- 观察 Agent 自动编写代码
- 如需并行多任务,新建多个项目窗口即可
- 可选:安装 Skills(预置工作流)或自定义 Skills
- 内置 Git 操作,可直接连接 GitHub 存储代码
- 底部终端可执行命令,右 Diff 面板可查看代码变更
Ideogram 图像编辑实测 SOP
- 访问 Ideogram 网站
- 上传待编辑图像
- 在编辑框中输入修改 Prompt(如"给她戴上加州教士队棒球帽")
- 等待 20-30 秒生成
- 可叠加多次编辑(背景改为棒球场 + 加紫色太阳镜)
Crea 实时光变实测 SOP
- 下载 Crea App(iOS/Android)
- 打开 App,点击左下角"Real Time"按钮
- 选择内置滤镜(比自定义 Prompt 更稳定)
- 对着摄像头,滤镜实时生效
- 可切换不同滤镜进行创作
5. 行业清醒剂与非共识观察 (Reality Check & Insights)
-
反直觉结论:AI 编程模型的能力已经跨越了"能用"的阈值。一个完全不会编程的人,用自然语言可以在 1 小时内" vibe code “出一个飞行模拟游戏(Alistair Mcclelay 用 Opus 4.6 + GPT-5.3 实测)。这意味着"程序员"这个职业的定义正在被改写。
-
实战陷阱:Perplexity 的进阶 Deep Research 和 Model Council 功能仅对 $200/月的 Max 订阅户开放,普通用户被挡在体验门槛之外。AI 工具的"免费"往往是有条件的。
-
被低估的玩家:Grok(XAI)被舆论忽视。播主直言:“很多人不喜欢 XAI 模型是因为不喜欢 Elon,而不是因为模型本身不行。Grok 大模型是相当不错的,视频和图像模型也够硬。”
-
SaaS 崩盘预期:Anthropic 插件系统发布导致软件股集体下跌。市场已经意识到:当 AI Agent 可以通过插件替代传统 SaaS 软件的整个功能时,“软件即服务"的商业模式根基正在动摇。
6. 金句 (Golden Quotes)
- “SaaS 世界过去 3 年一直处于被颠覆的风险中。我们只是现在才看到这些编程模型足够好用,以至于所有人都在说’好吧,这事比我想的来得更快。'”
- “Codex app 的出现意味着 AI 编程从’辅助编码’升级为’自主开发’。对于拥有大量想法但缺乏技术能力的用户,现在可以同时让多个 Agent 并行构建不同项目。”
- “每家公司最终都会雇佣一个内部 vibe coder,用自然语言编程来替代每月花费六位数的营销技术栈。”
- “很多人不喜欢 XAI 模型是因为不喜欢 Elon,而不是因为模型本身不行。”
- “OpenAI 对 Anthropic 广告的回应有 930 万浏览量,而广告本身只有 410 万。他的回应浏览量是广告的两倍。”
- “Kling 3.0 在逼真度方面是我见过的所有模型中最好的。”
- “如果你想要一个本地安装的模型,可以直接说话并转录,你现在有了一个开源的免费方案。”
- “Super Bowl 将成为 AI 广告节。”
📺 视频原片
视频ID: xdp8bulnidY