原始标题: Google just dropped Gemini 3.1… (WOAH)
发布日期: 2026-02-20 | 来源频道: @matthew_berman
📝 深度摘要
对话背景与核心主题
Google正式发布Gemini 3.1 Pro,这是继上周Gemini 3 Deep Think模型之后的又一重大更新。Matthew在视频中激动地展示了这款新模型的核心能力升级,特别是在SVG动画生成、基准测试成绩和应用场景方面的突破。
核心逻辑拆解
SVG生成能力的飞跃:Gemini 3.1 Pro在Pelican Bench测试中展现出惊人的进步。模型能够生成骑自行车的鹈鹕、骑复古自行车的青蛙、开小汽车的长颈鹿、穿旱冰鞋的鸵鸟等复杂SVG动画,细节和流畅度远超Gemini 3。
基准测试全面胜出:
- Humanity’s Last Exam:无工具44.4%,有工具51.4%
- ARC AGI 2:77.1%(是Gemini 3 Pro的两倍多,大幅领先Opus 4.6的68.8%)
- GPQA Diamond:94.3%(科学知识测试)
- SWEBench verified:80.6%(编程能力与Opus 4.6基本持平)
- T2Bench工具使用测试:接近满分99.3%
方法论与工具箱
视频展示了多个实际应用案例:Jeff Dean用Gemini 3.1 Pro创建城市规划模拟应用,能在地理地形上设计完整城市;同时还能根据技术图纸直接生成CAD模型,实现3D打印。
关键洞察与辩论
Matthew指出基准测试只是部分参考,“vibe”(实际使用体验)才是关键。他曾短暂将Gemini 3 Pro设为OpenClaw的主力模型,这次3.1的发布让他迫不及待想测试新版本。虽然Sonnet 4.6表现优异且价格相对较低,但Gemini 3.1 Pro在多维度上的突破性进展使其成为焦点。
金句
“Benchmarks only tell part of the story. It’s all about the vibes."(基准测试只是故事的一部分,关键还得看实际体验)
📺 视频原片
视频时长: 6 分钟 | 视频ID: W5dlgzluems