原始标题: Google just dropped Gemini 3.1… (WOAH)
发布日期: 2026-02-20 | 来源频道: @matthew_berman
📝 深度摘要
1. 对话背景与核心主题
Matthew Berman是一位专注于人工智能和科技领域的YouTube博主,长期关注大模型发展动态。本次对话围绕Google最新发布的旗舰多模态大模型Gemini 3.1 Pro展开,重点探讨该模型在ARC AGI 2、GPQA Diamond等多项权威基准测试中的突破性表现,以及其200万Token超长上下文、空间推理、代码生成等核心能力。视频旨在解析Gemini 3.1 Pro如何在“学会学习”这一AGI核心课题上取得实质性进展,并评估其对当前大模型竞争格局的潜在影响。
Google Gemini 3.1 Pro 发布:技术突破与实测表现深度解析
2. 核心干货概览
| 类别 | 名称 | 核心用途 / 技术意义 |
|---|---|---|
| 模型版本 | Gemini 3.1 Pro | Google 最新发布的旗舰多模态大模型,支持高级推理与复杂任务处理 |
| 基准测试 | Pelican Bench | SVG 矢量图形生成能力测试,衡量模型对视觉结构化输出的掌控力 |
| 基准测试 | Humanity’s Last Exam | 无工具场景下最严格的知识推理测试,聚焦模型"白盒"推理能力 |
| 基准测试 | ARC AGI 2 | 衡量模型通过学习快速掌握新技能并泛化的能力,被视为 AGI 进程关键指标 |
| 基准测试 | GPQA Diamond | 科学知识问答测试,考察模型在专业学科领域的知识储备 |
| 基准测试 | SWEBench Verified | 代码生成与软件工程能力测试,业界最具挑战性的编程 benchmark 之一 |
| 基准测试 | T2Bench | 工具调用能力测试,衡量模型在复杂工具链场景下的执行精确度 |
| 上下文窗口 | 200万 Token | Gemini 3.1 Pro 支持超长上下文,官方宣称达 200 万 Token |
3. 技术深度拆解与实测表现
2.1 基准测试成绩详解
Pelican Bench(SVG 生成能力)
这是衡量模型对 SVG 矢量图形结构理解的核心测试。Gemini 3.1 Pro 生成的"骑自行车的鹈鹕"SVG 在动画流畅度和细节丰富度上显著优于前代 Gemini 3 Pro。测试还展示了"骑复古 penny-farthing 自行车的青蛙"、“开小汽车的 giraffe"等复杂场景,模型在肢体结构、动作协调性和光影细节上均展现出质的飞跃。
Humanity’s Last Exam(终极知识测试)
- 无工具模式:44.4% 正确率
- 搜索 + 阻断列表模式:51.4% 正确率
- 与 Opus 4.6 成绩基本持平,无工具模式下略优,工具模式下略逊
ARC AGI 2(AGI 进程关键指标)
- Gemini 3.1 Pro 得分:77.1%
- 相比 Gemini 3 Pro 翻倍不止
- Opus 4.6 得分 68.8%,被大幅甩开
- 该测试考察模型在仅给出"解题范例"后,能否快速理解规律并解决全新的同类问题,是当前最能反映"泛化能力"的基准测试
GPQA Diamond(科学知识)
- Gemini 3.1 Pro:94.3%(第一名)
- Gemini 3 Pro:91.9%(第二名)
- GPT-5.2 Thinking Extra High:92.4%(第三名)
SWEBench Verified(代码能力)
- Gemini 3.1 Pro:80.6%
- 基本与 Opus 4.6 持平,大幅超越 Gemini 3 Pro
T2Bench(工具调用)
- 得分 99.3%,接近满分
- 在电信工具调用场景下表现几乎完美
2.2 核心应用场景展示
城市仿真规划应用
Google DeepMind 首席科学家 Jeff Dean 展示的城市规划应用是本次发布的亮点之一。用户可以围绕真实地理地形生成完整城市设计,支持以下参数配置:
- 路径规划(pathing)
- 路径碰撞检测(path collision)
- 水体特征(water features)
- 地形特征(land features)
- 实时编辑与修改
- 最终生成城市鸟瞰渲染图
CAD 模型生成(3D 打印工作流)
从技术图纸直接生成可打印的 CAD 模型。演示中仅提供基础技术规格,模型即自动生成完整的三维建模代码,输出可直接导入 3D 打印机进行实物制造。
2.3 价格与成本考量
Gemini 3.1 Pro 定位于高强度知识工作场景,虽然价格低于 Opus 4.6,但仍属于"较昂贵"梯队。Matthew 在视频中坦言,由于成本因素,他未将 Opus 4.6 作为 OpenClaw 的默认模型,而是选择了性价比更优的方案。
4. 极客洞察与边界分析
3.1 反直觉发现
- SVG 生成并非"花哨功能”:Google 投入大量精力优化 SVG 输出能力,这背后是对模型"结构化空间推理"能力的极致锻炼。SVG 代码的精确性直接映射到模型对几何关系、层次结构和运动逻辑的理解深度
- ARC AGI 2 翻倍式进步:从 Gemini 3 Pro 到 3.1 Pro,77.1% vs 约 30%+ 的跨越,证明了 Google 在"学会学习"(learning to learn)这一 AGI 核心课题上取得了实质性突破
- Deep Think 模型底层即 Gemini 3.1 Pro:上周发布的 Deep Think 模型被证实基于 Gemini 3.1 Pro,这意味着其强大的推理能力源自同一架构
3.2 适用边界与风险
- SVG 虽强但非无限:复杂的 SVG 动画仍有翻车案例,视频中展示的"骑 penny-farthing 的青蛙"某些细节并不符合物理常识
- 长上下文成本:200 万 Token 上下文窗口极为诱人,但实际调用成本将随输入长度线性增长,需谨慎评估 ROI
- API 封禁风险:Matthew 提到 Anthropic 曾"meanly revoked"其 API 访问权限,依赖单一供应商存在业务连续性风险
3.3 实战建议
- 优先场景:复杂代码生成、多轮工具调用、长文档理解与推理、3D/CAD 工作流
- 避免场景:简单问答(性价比不如 Sonnet 4.6 或 Gemini Flash)、纯离线部署(当前仅支持云端 API)
- 最佳实践:利用 200 万 Token 上下文一次性输入完整代码库或长文档,减少分段处理带来的信息断裂
5. 金句
“Benchmarks only tell part of the story. It’s all about the vibes. It’s all about when you actually go to use it, how well does it perform?”
(基准测试只能说明一部分。关键在于"感觉",在于你真正用它的时候,它表现到底好不好。)
“Shout out to friend of the channel, Greg Cameron, also president of Arc Prize.”
(致敬频道的朋友 Greg Cameron,他也是 Arc Prize 的主席。)
“I can’t wait to test this in OpenClaw.”
(我已经迫不及待要在 OpenClaw 里测试它了。)
📺 视频原片
视频ID: W5dlgzluems