原始标题: AI News: 5 New Models Dropped This Week!
发布日期: 2026-02-20 | 来源频道: @mreflow
📝 深度摘要
对话背景与核心主题
这是一期AI领域每周新闻速报,视频时长约31分钟,涵盖了2026年2月中旬至月末期间AI行业的重大发布和争议事件。本周的AI圈格外热闹——多家科技巨头扎堆发布新模型,从基础大语言模型到音乐生成、图像处理、代码代理等细分领域全面开花。与此同时,好莱坞与AI公司的版权争议、OpenClaw创始人跳槽OpenAI等戏剧性事件也引发热议。
核心逻辑拆解
一、Anthropic Claude Sonnet 4.6:免费用户的意外惊喜
Anthropic本周发布了Sonnet 4.6,这是Sonnet系列迄今为止最强大的升级版本。虽然它不是对标旗舰Opus的最强模型,但在多个关键指标上已经非常接近Opus 4.6的水平:
- 编程能力:SWE-bench验证集上得分79.6%,与Opus 4.6/4.5的80.8%/80.9%几乎持平
- 计算机使用能力:OSWorld基准测试得分72.5,与Opus 4.6的72.7%几乎一致
- 代理工具使用:得分91.7%,接近最先进水平91.9%
关键价值点:对于普通用户来说,日常使用可能感受不到明显差异。但对于API开发者而言,这是一次重大利好——他们可以用Sonnet的价格获得接近Opus级别的代码和代理能力。此外,4.6版本还支持高达100万token的上下文窗口(目前仅限API用户)。
Sonnet 4.6已作为免费版和Pro版的默认模型上线,价格保持不变。Anthropic还宣布Claude现已集成进PowerPoint(需Pro版),支持从描述生成完整幻灯片、自动创建图表等功能。
更令人眼前一亮的是Anthropic与Figma的合作——Claude Code现在可以将生产代码直接转换为可编辑的Figma设计稿,实现了代码↔设计的双向循环。
二、Google全面发力:Gemini 3.1 Pro + 音乐/图像/办公全家桶
Google本周一口气发布了多个产品,形成了对AI市场的全方位包围:
1. Gemini 3.1 Pro:科学推理与编程的双重突破
这是Google对标Claude Sonnet 4.6的主力产品。虽然官方称之为"小幅升级",但在特定领域实现了质的飞跃:
- Arc AGI 2基准测试:在抽象推理任务上大幅领先,Opus 4.6是为数不多能接近的竞争对手
- 科学知识:超越所有竞争对手
- 终端编码:领先全场
- 代理工具使用:与Opus 4.6并列最先进水平
Gemini 3.1 Pro最惊艳的能力是生成动画SVG——它可以直接编写代码生成动态图形。视频中演示了让模型创建"一只灰狼打篮球"的动画SVG,效果相当令人惊喜。在Google AI Studio中即可体验。
2. LRA 3:Google的音乐版Suno
这是Google对标Suno的音乐生成模型,目前仅支持生成30秒音乐片段。用户可以在Gemini应用中直接使用,输入描述即可生成音轨,也可以选择现有曲目进行混音。美国地区免费使用,付费用户享有更高限额。
3. Photo Shoot:电商营销神器
Google推出了名为"Photo Shoot"的新功能,专门解决电商产品图的痛点。用户只需上传一张产品照片,选择模板,AI就会自动生成专业级营销图片——将产品植入各种场景、背景中。系统会分析用户网站的设计DNA(配色、字体、品牌调性),确保生成图片风格统一。
4. Notebook LM:PPT终于可以"改"了
Notebook LM新增了"基于提示的幻灯片修订"功能。用户可以用自然语言指令修改PPT,比如"把背景改成网格纸",AI就会重新生成对应幻灯片。这个功能对于经常用Notebook LM做演示的人来说非常实用。
三、XAI Grock 4.2:四代理协商机制
马斯克的XAI发布了Grock 4.2 Beta,这次的独特之处在于其四代理协作架构:
- Grock(协调者):统筹全局
- Harper(研究者):信息搜集
- Benjamin(逻辑验证):数学、代码与事实核查
- Lucas(创意头脑):假设生成与突破性思维
这四个代理并行思考、相互辩论、交叉验证,最后达成共识后才输出最终答案。简单来说,就是让多个AI"开会讨论"后再给你答复,而不是单一模型直接回答。
四、开源生态:中国力量崛起
1. 字节跳动Seed 2.0系列
字节跳动发布了Seed 2.0系列,包含Pro、Light、Mini三个版本。该系列在视觉相关任务上表现突出,在多个基准测试中超越美国基础模型:
- 数学视觉任务(Math Vision、Kangaroo)
- 视觉语言模型偏见评估(VLMs Are Biased、Baby Vision)
- 指令遵循能力接近领先水平
2. 阿里Qwen 3.5:首个开源多模态旗舰
阿里发布了Qwen 3.5 397B-A17B,这是Qwen 3.5系列的首个开源权重模型,支持原生多模态能力。基准测试显示其性能与Claude Opus 4.5、GPT 5.2、Gemini 3 Pro等闭源旗舰模型持平。
视频特别指出:开源模型正在以前所未有的速度追赶闭源前沿。“闭源模型突破后,开源模型迅速跟进;闭源再次突破,开源再次追赶”——这个循环正在加速。
五、争议与戏剧性事件
1. Pentagon vs. Anthropic:军用AI争议
五角大楼与Anthropic产生了冲突。五角大楼希望将Claude用于"所有合法用途",但Anthropic拒绝将其用于大规模监控和完全自主武器系统。尽管Anthropic与Palantir/五角大楼签有合作协议,但坚持设定道德红线。
2. 好莱坞 vs. 字节跳动Seed Dance 2.0
SAG-AFTRA(美国演员工会)、迪士尼、电影协会等联合发声,强烈谴责Seed Dance 2.0未经授权使用演员形象和IP。多家巨头要求字节跳动立即停止侵权。最终字节跳动宣布将"加强防护措施",但视频指出:开源社区可能在不久后推出类似模型,届时好莱坞将无法阻止。
3. OpenClaw创始人加入OpenAI
OpenClaw(原Cladbot/Moltbot)创始人Peter Steinberger被曝已加入OpenAI开发内部Agent技术。这被形容为"Anthropic的又一次失策"——当年Anthropic曾向OpenClaw发出停止使用"Cladbot"名称的警告,迫使其多次改名,最终促成了OpenClaw与OpenAI的这次合作。
4. Meta的"数字遗产"专利
Meta获得了一项新专利:AI系统可以接管已故用户的社交媒体账户,继续发帖和聊天。视频评论称这"反乌托邦、怪异、令人毛骨悚然"。
5. 其他快讯
- Warp Oz:云端代码代理平台,97%的代码改动被用户接受,为开发者每天节省1小时以上
- Leonardo AI:品牌全面升级,定位为"一体化图像/视频/编辑平台"
- Meta Manis:被Meta收购后,现在可以在Telegram、WhatsApp中直接使用AI代理
- Tavis Fenix 4:最先进的实时人类渲染模型,可创建情感响应式AI虚拟形象
- Unitree机器人:在春节联欢会上表演功夫,展示了后空翻等高难度动作
方法论与工具箱
- 测试新模型:使用Google AI Studio (ai-studio.google.com) 体验Gemini 3.1 Pro,选择"Gemini 3.1 Pro Preview"
- 音乐生成:Gemini应用中的"Create Music"功能(需18岁以上,美国地区免费)
- 电商产品图:访问 labs.google/pomelli 使用Photo Shoot功能
- Grock 4.2:访问 grock.com 选择"Grock 4.2 Beta"体验四代理协作
- Warp Oz:使用优惠码"wolf"获取Warp Build $5体验资格
关键洞察与辩论
模型选择策略:对于大多数日常用户,本周发布的新模型带来的体验提升"边际";但对于开发者/程序员,这些升级带来了"生活质量"级别的改进
开源vs闭源:开源模型正在以惊人速度追赶闭源前沿,“每次闭源突破后,开源很快就会赶上”
AI监管困境:Seed Dance 2.0事件显示,技术前进的脚步可能无法被法律或舆论阻止——“这次好莱坞赢了,但开发工具的人最终会在长期战争中获胜”
AI代理元年:从Claude Code到Warp Oz,2026年似乎正在成为"AI代理"真正落地的年份
金句
- “大多数日常用户可能不会注意到这次更新带来的巨大差异。”
- “开源模型正以惊人速度追赶闭源前沿。”
- “这次好莱坞赢了,但开发工具的人最终会在长期战争中获胜。”
- “现在是AI工具最差的时刻,但也是最好的时刻——因为它只会越来越好。”
- “每一周都是AI最疯狂的一周。”
📺 视频原片
视频时长: 31 分钟 | 视频ID: 5cMZqjrgq6Y