Gemini 3.1 Pro与基准测试的终结:欢迎来到AI的「感觉」时代

Gemini 3.1 Pro发布,作者通过24小时数百次实验揭示基准测试已不再可靠。训练大语言模型仅20%计算资源用于预训练,真正决定表现的是后训练阶段——针对特定领域内部基准优化。这意味着拥有相关数据的AI实验室可使模型在你领域的表现与其他基准测试大相径庭。旧范式终结:某个领域更好不再意味着其他领域也好,国际象棋测试中Claude Opus 4.6反而比Sonnet 4.5更低分。ARC AGI 2测试中Gemini 3.1 Pro领先,但改变编码方式准确率就下降 Simple Bench测试中Gemini 3.1 Pro达79.6%,与人类平均水平持平。作者认为已进入AI「感觉」时代——模型表现取决于具体场景,基准测试只能参考,真正重要的是实际使用体验。

February 20, 2026 · 3 min · 1273 words · AIcan