原始标题: AI News: This Video Model Has Everyone Freaked Out!

发布日期: 2026-02-13 | 来源频道: @mreflow

📝 深度摘要

AI 周报与硬核实战测评报告

1. 对话背景与核心主题

本期 AI 周报由 mreflow 频道发布,聚焦于 2026 年 2 月中旬 AI 领域的最新进展。播主开篇即展示了一段令人震惊的对比:2023 年 Will Smith 吃意面的 AI 视频与 2026 年 Seed Dance 2.0 生成的版本——后者的人物一致性、唇同步精度已接近电影级水平。本期核心主题围绕视频生成模型的爆发、推理速度的极限突破、以及开源大模型与闭源模型的性能差距收窄展开。视频时长约 30 分钟,属于标准的周报汇总类内容。

2. 核心干货概览

类别 核心动态 / 工具 生产力价值 / 硬件门槛
视频生成模型突破 Seed Dance 2.0 (字节跳动) 支持文本/图像/音频/视频四模态输入,15秒高清多镜头音视频输出,唇同步精度业界最佳;美国区尚未开放,预计2月24日解锁
推理速度革命 GPT-5.3 Codeex Spark (OpenAI) 基于 Cerebrus 芯片,推理速度提升约 20 倍;生成一个贪吃蛇游戏仅需 5-6 秒,普通 Codeex 模型需 45 秒;仅对 $200/月 Pro 用户开放
闭源推理旗舰 Gemini 3 DeepThink (Google) Arc AGI 2 基准测试领先所有对手,包括 GPT-5.2 和 Claude Opus 4.6;在人类最终考试 (Humanity’s Last Exam) 取得新 SOTA;在物理奥林匹克和化学奥林匹克书面部分达金牌水平;CMT 基准 (凝聚态理论) 得分 50.5%;仅限 $250/月 Google AI Ultra 订阅
开源大模型追赶 GLM5 (智谱AI) Humanity’s Last Exam 得分 50.44%,超越 Opus 4.5、Gemini 3 Pro 和 GPT-5.2 with tools;SWE-bench Verified 得分与 SOTA 模型持平;运行成本约为 Opus 4.6 的 1/120;需高配硬件 (两台 M3 Ultra Max Studio,512GB RAM,总价约 $20,000)
高性价比模型 MiniMax M2.5 / M2.5 Lightning SWE-bench Verified 与 SOTA 模型性能持平;多语言基准测试超越部分对手;Browse Comp 能力仅次于 Anthropic;输入 $0.30/百万 token,输出 $240/百万 token;连续运行 1 小时成本约 $1;4 个实例连续运行一年成本约 $10,000
图像生成更新 Qwen Image 2.0 (阿里) 2K 原生分辨率,文字渲染大幅改进,推理速度提升;实测生成 YouTube 封面失败 (16:9 设置未生效)

3. 每周要闻与多模型观察

动态一:Seed Dance 2.0 —— 视频生成进入"四模态时代"

事件背景:字节跳动发布 Seed Dance 2.0,这是首个支持文本、图像、音频、视频四种模态输入的视频生成模型。在 Sora 和 Google VideoFX 受限于版权和内容政策的环境下,字节跳动采取"先上车后补票"策略,允许生成受版权保护的内容(如《星球大战》《海绵宝宝》《海贼王》角色),迅速在社交媒体引发病毒式传播。

技术逻辑还原:该模型支持 15 秒高清多镜头音视频输出,采用双通道音频设计。社区实测显示,其唇同步精度是截至目前所有视频模型中最出色的。人物一致性(character consistency)在多镜头切换场景下表现惊人——同一角色穿过不同房间后再次出现,面部特征仍可识别为同一人。

行业冲击波:美国公司(OpenAI Sora、Google)受限于版权法规,无法开放类似功能。播主指出,美国 IP 持有者将很难通过法律手段向中国公司维权。这本质上是一场"技术领先 vs 法规落后"的博弈。对于 UGC 内容创作者而言,这意味着可以通过 AI 直接生成过去需要专业团队才能完成的广告素材。

动态二:GPT-5.3 Codeex Spark —— 推理速度的代际跨越

事件背景:OpenAI 联合 Cerebrus 发布 GPT-5.3 Codeex Spark,采用 Cerebrus 自研推理芯片。官方演示中,生成一个 HTML 贪吃蛇游戏:左侧普通 Codeex 模型耗时约 45 秒,右侧 Spark 模型仅需 5-6 秒,速度提升约 20 倍。

技术逻辑还原:Cerebrus 芯片专门针对推理(inference)场景优化,而非训练场景。这使得模型在"执行"阶段——即用户发送 Prompt 后获得响应的过程——获得极大加速。播主实测要求生成一个"Vampire Survivors 风格"游戏:从输入 Prompt 到完整可玩版本生成,仅用时约 50 秒。生成内容包括自动射击、XP 收集、升级选项(攻击速率+12%、穿透+1)、敌人波次生成等完整游戏逻辑。

行业冲击波:对于需要快速迭代原型、自动化测试代码的开发者而言,20 倍速度提升意味着工作流本质变化。播主在 30 秒内获得完整游戏构建版本,50 秒后即可开始测试。这对"氛围编程"(vibe coding) 工作流的效率提升是颠覆性的。

动态三:Gemini 3 DeepThink —— 付费墙后的推理王者

事件背景:Google 发布 Gemini 3 DeepThink,这是目前推理能力最强的模型。在 Arc AGI 2(推理与知识测试)、Humanity’s Last Exam(学术推理基准)、多模态理解等多项基准测试中取得新 SOTA。

技术逻辑还原:Arc AGI 2 基准测试中,Gemini 3 DeepThink 显著超越自家 Gemini 3 Pro、Claude Opus 4.6 和 GPT-5.2。Humanity’s Last Exam 同样取得领先。在物理和化学奥林匹克书面部分达金牌水平。在凝聚态理论 (CMT) 基准取得 50.5%——这是理论物理领域最具挑战性的基准之一。

行业冲击波:该模型仅对 $250/月的 Google AI Ultra 订阅用户开放。播主坦言"我不够聪明,想不到什么好用例",因为其能力已超出普通用户日常需求——你得懂理论物理才能验证它的回答是否正确。这预示着 AI 正在从"工具"向"专家协作者"演进。

动态四:GLM5 与 MiniMax M2.5 —— 开源模型的逆袭

事件背景:智谱 AI 发布 GLM5,MiniMax 发布 M2.5。这两个开源模型在多项基准测试中逼近甚至超越闭源 SOTA 模型。

技术逻辑还原

  • GLM5:Humanity’s Last Exam 得分 50.44,超越 Opus 4.5 (49.1)、Gemini 3 Pro (48.x) 和 GPT-5.2 with tools。SWE-bench Verified 与 SOTA 持平。运行成本仅为 Opus 4.6 的约 1/120。E01 Research 用 GLM5 在 24 小时内自主构建了一个可运行的 GBA 模拟器(含 3D GUI),模型自行完成测试-记录-修复的完整循环。
  • MiniMax M2.5:SWE-bench Verified/Pro 与 SOTA 持平。多语言基准超越部分对手。Browse Comp(浏览器代理能力)仅次于 Anthropic。M2.5 Lightning 版本以 100 tokens/秒运行,输入 $0.30/百万 token,输出 $240/百万 token。连续运行 1 小时成本 $1,4 实例连续运行一年 $10,000。

行业冲击波:开源模型正在以惊人速度追赶闭源 SOTA。GLM5 需要高端硬件(两台 M3 Ultra Max Studio,512GB RAM,约 $20,000),但 MiniMax M2.5 的成本已降至"可接受"范围。播主评论:“这些模型正在达到另一个层级,我甚至不需要关心它们有多聪明,因为它们已经能完成太多酷炫的任务。”

4. 深度实测 SOP 与性能报告

Seed Dance 2.0 实测表现

  • 多模态输入:支持文本描述、参考图像、音频参考、视频参考四种输入方式的组合
  • 输出规格:15 秒高清视频,双通道音频,多镜头切换
  • 唇同步实测:演示中 Will Smith 吃意面场景,嘴型与语音完美对齐,超越此前所有视频模型
  • 角色一致性:同一角色在多个镜头中保持面部特征稳定,穿房间后返回仍可识别
  • 生成素材类型:UGC 产品广告(洗衣机推销)、电影场景再现(《指环王》15 秒版)、《沙丘》风格短片、动漫角色(《海贼王》路飞扔 MacBook)、表情包视频(《海绵宝宝》)
  • 访问状态:美国区尚未开放,预计 2 月 24 日解锁;已有绕过方式但大多被封禁

Kling 3.0 (Leonardo 平台) 实测

  • 生成等待时间:视频演示中,生成一个在韩国场景的提示词视频,耗时超过 1 小时(播主上周尝试未成功,本周检查发现终于生成)
  • Leonardo 集成:本周已在 Leonardo AI 中可用,生成速度显著快于直接使用 Kling 官网(实测约 2-3 分钟对比数小时)
  • 音频支持:具备音频生成能力,但需手动开启(播主某次实测未生成音频)
  • 角色一致性:同一角色在不同场景切换中保持一致

GPT-5.3 Codeex Spark 实测

  • 实测 1 - 贪吃蛇游戏:Prompt: “build a simple HTML snake game”
    • 普通 Codeex:约 45 秒完成
    • Spark:约 5-6 秒完成
    • 速度提升约 20 倍
  • 实测 2 - Vampire Survivors 风格游戏:Prompt: “create a beautifully designed Vampire Survivors clone that I can play in my browser”
    • 生成时间:50 秒
    • 包含完整游戏逻辑:自动射击、XP 收集、等级系统、升级选项(攻击速率+12%、穿透+1)、敌人波次、AI 寻路、经验球自动吸附功能
    • 仅有音效缺失,视觉为简单几何图形

Qwen Image 2.0 实测

  • 实测 - YouTube 封面生成
    • 输入:播主头像照片 + 提示词 “generate a clickbaity YouTube thumbnail using this person in the thumbnail. Give it text that says ’this changes everything'”
    • 设置:16:9 比例
    • 结果:完全失败——生成的图像既不是 16:9,文字渲染也不如预期
    • 播主评价:“This wasn’t impressive at all”

Meta AI 功能实测

  • Facebook 头像动画:在手机端 Facebook App 中,滚动动态后出现"用 Meta AI 动画化头像"选项,但部分用户(包括播主)初始未看到该功能入口
  • Threads “Dear Algo” 功能:在 Threads 发帖时输入 “Dear Algo, show me more [内容类型]",算法会读取并尝试调整信息流。播主实测:“Dear Algo. Show me people who share cool tech and enjoy playing with AI tools.”

5. 行业清醒剂与非共识观察

反直觉结论

  1. “最先进模型"正在超出普通用户需求边界:Gemini 3 DeepThink 在理论物理基准取得 50.5% 得分,但播主坦言"我不明白它回答得对不对”。这意味着 AI 正在跨越"工具"到"专家"的边界——普通用户甚至无法验证输出的正确性。

  2. 开源模型正在以 1/100 成本逼近 SOTA:GLM5 运行成本约为 Opus 4.6 的 1/120,但基准测试得分已超越后者。这意味着"够用"和"最强"之间的差距正在缩小到无关紧要的程度。

  3. AI 视频生成的版权问题本质是"监管套利”:字节跳动 Seed Dance 2.0 允许生成受版权保护的角色(《星球大战》《海绵宝宝》),而 Sora 和 Google 被法规绑住手脚。美国公司短期内无法在相同能力维度竞争。

  4. 速度正在成为比智能更关键的变量:GPT-5.3 Codeex Spark 的核心升级不是能力提升,而是 20 倍速度。50 秒生成完整可玩游戏的演示意味着:对于日常开发任务,“多模态智能"不如"即时反馈"有价值。

实战陷阱

  1. “四模态"不等于"高质量”:Seed Dance 2.0 虽有技术突破,但美国区用户需要等待,且大部分绕过方式已被封禁。实际可用性仍受限于地域。

  2. Benchmark 领先不等于实际好用:Gemini 3 DeepThink 在多项基准领先,但仅对 $250/月 Ultra 订阅开放。普通想测试用户即使也无门。

  3. 开源模型的硬件门槛被低估:GLM5 虽然在基准上超越 Opus 4.6,但需要两台 M3 Ultra Max Studio($20,000)才能本地运行。“免费"背后是高昂的硬件投入。

  4. 广告正在入侵 AI 产品:OpenAI 开始在 ChatGPT 中测试广告。播主警示:这是一个"滑坡”——平台可能逐步优化用户点击广告的行为,而非优化回答质量。

6. 金句

  • “这些视频的逼真程度达到了我前所未见的水平。角色的连贯性简直令人发指。”
  • “(中国公司)对版权和商标的顾虑比美国公司少得多,这让它们能做出比美国公司更强的模型。”
  • “GPT-5.3 Codeex Spark 用了 20 倍的速度完成了和普通版本一样的工作——这太疯狂了。”
  • “我只给了它一个 Prompt,50 秒后游戏就做好了,可以玩了。像什么?”
  • “我们正在到达一个境界:你不再只是给 AI 一个任务,而是给它一个目标。AI 会自己制定计划、执行、测试、调整,然后连续几小时不断循环迭代。”
  • “在基准测试分数上,我甚至不需要关心这些模型有多聪明了,因为它们已经能完成太多酷炫的工作。”
  • “广告是一个滑坡——平台很可能会逐步优化让用户点击更多广告,而不是优化回答质量。这让我感到害怕。”

📺 视频原片


视频ID: msrbd-d6lWk