原始标题: Gemini 3.1 Pro and the Downfall of Benchmarks: Welcome to the Vibe Era of AI
发布日期: 2026-02-20 | 来源频道: @aiexplained-official
📝 深度摘要
对话背景与核心主题
谷歌最新顶级AI模型Gemini 3.1 Pro已正式发布。在24小时的测试中,作者进行了数百次实验,试图超越那些令人眼花缭乱的头条分数,给读者一个清晰的答案:为什么每次你在社交媒体上看到的新AI评价似乎都与上一次看到的相矛盾?
核心逻辑拆解
后训练阶段的崛起。许多人可能知道,训练大语言模型的预训练阶段涉及使用互联网规模的数据。但实际上,这只占训练LLM计算资源的20%。真正决定模型表现的是后训练阶段——在那里,通用基础模型针对特定领域的内部基准进行优化。如果某个AI实验室拥有与你领域相关的数据,并针对该领域的高分进行后训练,那么你对模型的使用体验可能与其他基准测试的结果大相径庭。
旧范式的终结。在旧的范式中,如果一个模型在某个领域明显更好,它很可能在许多或所有领域都更好。但现在这种情况已经不复存在。一个典型例子:在Epoch AI制作的国际象棋谜题基准测试中,5个月前Claude Sonnet 4.5得分12%,而上周Claude Opus 4.6仅得分10%——这并非说Opus 4.6不好,它在编码方面仍然令人难以置信。但国际象棋是一种纯粹的前瞻性推理能力测试,在AI的通用时代,你预期这种表现会转化为其他领域——而我们现在已不在那个范式中了。
方法论与工具箱
ARC AGI 2的警示。Gemini 3.1 Pro在ARC AGI 2中得分77.1%,遥遥领先于Claude Opus 4.6(更昂贵的型号,得分约69%)。但著名AI研究员Melanie Mitchell指出:如果改变编码方式(从数字改为其他符号),准确率就会下降。研究小组发现,输入中代表颜色的数字可以被LLM用来发现意外的算术模式,导致意外的正确解决方案。
简单基准的突破。在作者的私人Simple Bench测试中——测试陷阱问题或常识推理——Gemini 3.1 Pro以79.6%的成绩打破了自己从Gemini 3 Pro创下的记录。这实际上使其在误差范围内与人类平均水平持平——至少在使用的9名参与者中是如此。
关键洞察与辩论
「感觉」时代的到来。作者认为我们已经进入AI的"感觉"(Vibe)时代——模型的表现取决于你使用的具体场景。基准测试只能作为参考,真正重要的是你在实际使用中的体验。没有任何基准测试能完全代表真实世界的工作场景。
通用人工智能 vs 专家模型。在播客和文章中,你经常听到AI模型与专业人士和专家的比较,以及"超级智能"等说法。但与普通人类相比呢?作者认为:在纯文本英语方面,我认为你已经无法写出一个普通人类能够明显超越前沿模型的测试了。
金句(必须全部翻译成中文)
- 基准测试已死,“感觉"时代到来——模型表现取决于你的具体场景。
- 后训练阶段才是决定AI能力的关键,而不是预训练。
- 在AI的通用时代,某个领域的表现无法预测其他领域的表现。
- AI擅长走捷径——这是它们的天性,也是它们的局限。
- 我们正在见证一个历史性时刻:AI在文本领域已与普通人类持平。
📺 视频原片
视频时长: 22 分钟 | 视频ID: 2_DPnzoiHaY