berman_谷歌发布_Gemini_3_1_Pro_基准测试创纪录

原始标题: Google just dropped Gemini 3.1… (WOAH)

发布日期: 2026-02-20 | 来源频道: @matthew_berman

📝 深度摘要

对话背景与核心主题

Google正式发布Gemini 3.1 Pro，这是继上周Gemini 3 Deep Think模型之后的又一重大更新。Matthew在视频中激动地展示了这款新模型的核心能力升级，特别是在SVG动画生成、基准测试成绩和应用场景方面的突破。

核心逻辑拆解

SVG生成能力的飞跃：Gemini 3.1 Pro在Pelican Bench测试中展现出惊人的进步。模型能够生成骑自行车的鹈鹕、骑复古自行车的青蛙、开小汽车的长颈鹿、穿旱冰鞋的鸵鸟等复杂SVG动画，细节和流畅度远超Gemini 3。

基准测试全面胜出：

Humanity’s Last Exam：无工具44.4%，有工具51.4%
ARC AGI 2：77.1%（是Gemini 3 Pro的两倍多，大幅领先Opus 4.6的68.8%）
GPQA Diamond：94.3%（科学知识测试）
SWEBench verified：80.6%（编程能力与Opus 4.6基本持平）
T2Bench工具使用测试：接近满分99.3%

方法论与工具箱

视频展示了多个实际应用案例：Jeff Dean用Gemini 3.1 Pro创建城市规划模拟应用，能在地理地形上设计完整城市；同时还能根据技术图纸直接生成CAD模型，实现3D打印。

关键洞察与辩论

Matthew指出基准测试只是部分参考，“vibe”（实际使用体验）才是关键。他曾短暂将Gemini 3 Pro设为OpenClaw的主力模型，这次3.1的发布让他迫不及待想测试新版本。虽然Sonnet 4.6表现优异且价格相对较低，但Gemini 3.1 Pro在多维度上的突破性进展使其成为焦点。

金句

“Benchmarks only tell part of the story. It’s all about the vibes."（基准测试只是故事的一部分，关键还得看实际体验）

📺 视频原片

视频时长: 6 分钟 | 视频ID: W5dlgzluems

对话背景与核心主题#

核心逻辑拆解#

方法论与工具箱#

关键洞察与辩论#

金句#

对话背景与核心主题

核心逻辑拆解

方法论与工具箱

关键洞察与辩论

金句