原始标题: AI News： This Video Model Has Everyone Freaked Out!

发布日期: 2026-02-13 | 来源频道: @mreflow

📝 深度摘要

AI 周报与硬核实战测评报告

1. 对话背景与核心主题

本期 AI 周报由 mreflow 频道发布，聚焦于 2026 年 2 月中旬 AI 领域的最新进展。播主开篇即展示了一段令人震惊的对比：2023 年 Will Smith 吃意面的 AI 视频与 2026 年 Seed Dance 2.0 生成的版本——后者的人物一致性、唇同步精度已接近电影级水平。本期核心主题围绕视频生成模型的爆发、推理速度的极限突破、以及开源大模型与闭源模型的性能差距收窄展开。视频时长约 30 分钟，属于标准的周报汇总类内容。

2. 核心干货概览

类别	核心动态 / 工具	生产力价值 / 硬件门槛
视频生成模型突破	Seed Dance 2.0 (字节跳动)	支持文本/图像/音频/视频四模态输入，15秒高清多镜头音视频输出，唇同步精度业界最佳；美国区尚未开放，预计2月24日解锁
推理速度革命	GPT-5.3 Codeex Spark (OpenAI)	基于 Cerebrus 芯片，推理速度提升约 20 倍；生成一个贪吃蛇游戏仅需 5-6 秒，普通 Codeex 模型需 45 秒；仅对 $200/月 Pro 用户开放
闭源推理旗舰	Gemini 3 DeepThink (Google)	Arc AGI 2 基准测试领先所有对手，包括 GPT-5.2 和 Claude Opus 4.6；在人类最终考试 (Humanity’s Last Exam) 取得新 SOTA；在物理奥林匹克和化学奥林匹克书面部分达金牌水平；CMT 基准 (凝聚态理论) 得分 50.5%；仅限 $250/月 Google AI Ultra 订阅
开源大模型追赶	GLM5 (智谱AI)	Humanity’s Last Exam 得分 50.44%，超越 Opus 4.5、Gemini 3 Pro 和 GPT-5.2 with tools；SWE-bench Verified 得分与 SOTA 模型持平；运行成本约为 Opus 4.6 的 1/120；需高配硬件 (两台 M3 Ultra Max Studio，512GB RAM，总价约 $20,000)
高性价比模型	MiniMax M2.5 / M2.5 Lightning	SWE-bench Verified 与 SOTA 模型性能持平；多语言基准测试超越部分对手；Browse Comp 能力仅次于 Anthropic；输入 $0.30/百万 token，输出 $240/百万 token；连续运行 1 小时成本约 $1；4 个实例连续运行一年成本约 $10,000
图像生成更新	Qwen Image 2.0 (阿里)	2K 原生分辨率，文字渲染大幅改进，推理速度提升；实测生成 YouTube 封面失败 (16:9 设置未生效)

3. 每周要闻与多模型观察

动态一：Seed Dance 2.0 —— 视频生成进入"四模态时代"

事件背景：字节跳动发布 Seed Dance 2.0，这是首个支持文本、图像、音频、视频四种模态输入的视频生成模型。在 Sora 和 Google VideoFX 受限于版权和内容政策的环境下，字节跳动采取"先上车后补票"策略，允许生成受版权保护的内容（如《星球大战》《海绵宝宝》《海贼王》角色），迅速在社交媒体引发病毒式传播。

技术逻辑还原：该模型支持 15 秒高清多镜头音视频输出，采用双通道音频设计。社区实测显示，其唇同步精度是截至目前所有视频模型中最出色的。人物一致性（character consistency）在多镜头切换场景下表现惊人——同一角色穿过不同房间后再次出现，面部特征仍可识别为同一人。

行业冲击波：美国公司（OpenAI Sora、Google）受限于版权法规，无法开放类似功能。播主指出，美国 IP 持有者将很难通过法律手段向中国公司维权。这本质上是一场"技术领先 vs 法规落后"的博弈。对于 UGC 内容创作者而言，这意味着可以通过 AI 直接生成过去需要专业团队才能完成的广告素材。

动态二：GPT-5.3 Codeex Spark —— 推理速度的代际跨越

事件背景：OpenAI 联合 Cerebrus 发布 GPT-5.3 Codeex Spark，采用 Cerebrus 自研推理芯片。官方演示中，生成一个 HTML 贪吃蛇游戏：左侧普通 Codeex 模型耗时约 45 秒，右侧 Spark 模型仅需 5-6 秒，速度提升约 20 倍。

技术逻辑还原：Cerebrus 芯片专门针对推理（inference）场景优化，而非训练场景。这使得模型在"执行"阶段——即用户发送 Prompt 后获得响应的过程——获得极大加速。播主实测要求生成一个"Vampire Survivors 风格"游戏：从输入 Prompt 到完整可玩版本生成，仅用时约 50 秒。生成内容包括自动射击、XP 收集、升级选项（攻击速率+12%、穿透+1）、敌人波次生成等完整游戏逻辑。

行业冲击波：对于需要快速迭代原型、自动化测试代码的开发者而言，20 倍速度提升意味着工作流本质变化。播主在 30 秒内获得完整游戏构建版本，50 秒后即可开始测试。这对"氛围编程"(vibe coding) 工作流的效率提升是颠覆性的。

动态三：Gemini 3 DeepThink —— 付费墙后的推理王者

事件背景：Google 发布 Gemini 3 DeepThink，这是目前推理能力最强的模型。在 Arc AGI 2（推理与知识测试）、Humanity’s Last Exam（学术推理基准）、多模态理解等多项基准测试中取得新 SOTA。

技术逻辑还原：Arc AGI 2 基准测试中，Gemini 3 DeepThink 显著超越自家 Gemini 3 Pro、Claude Opus 4.6 和 GPT-5.2。Humanity’s Last Exam 同样取得领先。在物理和化学奥林匹克书面部分达金牌水平。在凝聚态理论 (CMT) 基准取得 50.5%——这是理论物理领域最具挑战性的基准之一。

行业冲击波：该模型仅对 $250/月的 Google AI Ultra 订阅用户开放。播主坦言"我不够聪明，想不到什么好用例"，因为其能力已超出普通用户日常需求——你得懂理论物理才能验证它的回答是否正确。这预示着 AI 正在从"工具"向"专家协作者"演进。

动态四：GLM5 与 MiniMax M2.5 —— 开源模型的逆袭

事件背景：智谱 AI 发布 GLM5，MiniMax 发布 M2.5。这两个开源模型在多项基准测试中逼近甚至超越闭源 SOTA 模型。

技术逻辑还原：

GLM5：Humanity’s Last Exam 得分 50.44，超越 Opus 4.5 (49.1)、Gemini 3 Pro (48.x) 和 GPT-5.2 with tools。SWE-bench Verified 与 SOTA 持平。运行成本仅为 Opus 4.6 的约 1/120。E01 Research 用 GLM5 在 24 小时内自主构建了一个可运行的 GBA 模拟器（含 3D GUI），模型自行完成测试-记录-修复的完整循环。
MiniMax M2.5：SWE-bench Verified/Pro 与 SOTA 持平。多语言基准超越部分对手。Browse Comp（浏览器代理能力）仅次于 Anthropic。M2.5 Lightning 版本以 100 tokens/秒运行，输入 $0.30/百万 token，输出 $240/百万 token。连续运行 1 小时成本 $1，4 实例连续运行一年 $10,000。

行业冲击波：开源模型正在以惊人速度追赶闭源 SOTA。GLM5 需要高端硬件（两台 M3 Ultra Max Studio，512GB RAM，约 $20,000），但 MiniMax M2.5 的成本已降至"可接受"范围。播主评论：“这些模型正在达到另一个层级，我甚至不需要关心它们有多聪明，因为它们已经能完成太多酷炫的任务。”

4. 深度实测 SOP 与性能报告

Seed Dance 2.0 实测表现

多模态输入：支持文本描述、参考图像、音频参考、视频参考四种输入方式的组合
输出规格：15 秒高清视频，双通道音频，多镜头切换
唇同步实测：演示中 Will Smith 吃意面场景，嘴型与语音完美对齐，超越此前所有视频模型
角色一致性：同一角色在多个镜头中保持面部特征稳定，穿房间后返回仍可识别
生成素材类型：UGC 产品广告（洗衣机推销）、电影场景再现（《指环王》15 秒版）、《沙丘》风格短片、动漫角色（《海贼王》路飞扔 MacBook）、表情包视频（《海绵宝宝》）
访问状态：美国区尚未开放，预计 2 月 24 日解锁；已有绕过方式但大多被封禁

Kling 3.0 (Leonardo 平台) 实测

生成等待时间：视频演示中，生成一个在韩国场景的提示词视频，耗时超过 1 小时（播主上周尝试未成功，本周检查发现终于生成）
Leonardo 集成：本周已在 Leonardo AI 中可用，生成速度显著快于直接使用 Kling 官网（实测约 2-3 分钟对比数小时）
音频支持：具备音频生成能力，但需手动开启（播主某次实测未生成音频）
角色一致性：同一角色在不同场景切换中保持一致

GPT-5.3 Codeex Spark 实测

实测 1 - 贪吃蛇游戏：Prompt: “build a simple HTML snake game”
- 普通 Codeex：约 45 秒完成
- Spark：约 5-6 秒完成
- 速度提升约 20 倍
实测 2 - Vampire Survivors 风格游戏：Prompt: “create a beautifully designed Vampire Survivors clone that I can play in my browser”
- 生成时间：50 秒
- 包含完整游戏逻辑：自动射击、XP 收集、等级系统、升级选项（攻击速率+12%、穿透+1）、敌人波次、AI 寻路、经验球自动吸附功能
- 仅有音效缺失，视觉为简单几何图形

Qwen Image 2.0 实测

实测 - YouTube 封面生成：
- 输入：播主头像照片 + 提示词 “generate a clickbaity YouTube thumbnail using this person in the thumbnail. Give it text that says ’this changes everything'”
- 设置：16:9 比例
- 结果：完全失败——生成的图像既不是 16:9，文字渲染也不如预期
- 播主评价：“This wasn’t impressive at all”

Meta AI 功能实测

Facebook 头像动画：在手机端 Facebook App 中，滚动动态后出现"用 Meta AI 动画化头像"选项，但部分用户（包括播主）初始未看到该功能入口
Threads “Dear Algo” 功能：在 Threads 发帖时输入 “Dear Algo, show me more [内容类型]"，算法会读取并尝试调整信息流。播主实测：“Dear Algo. Show me people who share cool tech and enjoy playing with AI tools.”

5. 行业清醒剂与非共识观察

反直觉结论

“最先进模型"正在超出普通用户需求边界：Gemini 3 DeepThink 在理论物理基准取得 50.5% 得分，但播主坦言"我不明白它回答得对不对”。这意味着 AI 正在跨越"工具"到"专家"的边界——普通用户甚至无法验证输出的正确性。
开源模型正在以 1/100 成本逼近 SOTA：GLM5 运行成本约为 Opus 4.6 的 1/120，但基准测试得分已超越后者。这意味着"够用"和"最强"之间的差距正在缩小到无关紧要的程度。
AI 视频生成的版权问题本质是"监管套利”：字节跳动 Seed Dance 2.0 允许生成受版权保护的角色（《星球大战》《海绵宝宝》），而 Sora 和 Google 被法规绑住手脚。美国公司短期内无法在相同能力维度竞争。
速度正在成为比智能更关键的变量：GPT-5.3 Codeex Spark 的核心升级不是能力提升，而是 20 倍速度。50 秒生成完整可玩游戏的演示意味着：对于日常开发任务，“多模态智能"不如"即时反馈"有价值。

实战陷阱

“四模态"不等于"高质量”：Seed Dance 2.0 虽有技术突破，但美国区用户需要等待，且大部分绕过方式已被封禁。实际可用性仍受限于地域。
Benchmark 领先不等于实际好用：Gemini 3 DeepThink 在多项基准领先，但仅对 $250/月 Ultra 订阅开放。普通想测试用户即使也无门。
开源模型的硬件门槛被低估：GLM5 虽然在基准上超越 Opus 4.6，但需要两台 M3 Ultra Max Studio（$20,000）才能本地运行。“免费"背后是高昂的硬件投入。
广告正在入侵 AI 产品：OpenAI 开始在 ChatGPT 中测试广告。播主警示：这是一个"滑坡”——平台可能逐步优化用户点击广告的行为，而非优化回答质量。

6. 金句

“这些视频的逼真程度达到了我前所未见的水平。角色的连贯性简直令人发指。”
“（中国公司）对版权和商标的顾虑比美国公司少得多，这让它们能做出比美国公司更强的模型。”
“GPT-5.3 Codeex Spark 用了 20 倍的速度完成了和普通版本一样的工作——这太疯狂了。”
“我只给了它一个 Prompt，50 秒后游戏就做好了，可以玩了。像什么？”
“我们正在到达一个境界：你不再只是给 AI 一个任务，而是给它一个目标。AI 会自己制定计划、执行、测试、调整，然后连续几小时不断循环迭代。”
“在基准测试分数上，我甚至不需要关心这些模型有多聪明了，因为它们已经能完成太多酷炫的工作。”
“广告是一个滑坡——平台很可能会逐步优化让用户点击更多广告，而不是优化回答质量。这让我感到害怕。”

📺 视频原片

视频ID: msrbd-d6lWk

📝 深度摘要#

AI 周报与硬核实战测评报告#

1. 对话背景与核心主题#

2. 核心干货概览#

3. 每周要闻与多模型观察#

动态一：Seed Dance 2.0 —— 视频生成进入"四模态时代"#

动态二：GPT-5.3 Codeex Spark —— 推理速度的代际跨越#

动态三：Gemini 3 DeepThink —— 付费墙后的推理王者#

动态四：GLM5 与 MiniMax M2.5 —— 开源模型的逆袭#

4. 深度实测 SOP 与性能报告#

Seed Dance 2.0 实测表现#

Kling 3.0 (Leonardo 平台) 实测#

GPT-5.3 Codeex Spark 实测#

Qwen Image 2.0 实测#

Meta AI 功能实测#

5. 行业清醒剂与非共识观察#

反直觉结论#

实战陷阱#

6. 金句#

📺 视频原片#