AI评估

Gemini 3.1 Pro发布，作者通过24小时数百次实验揭示基准测试已不再可靠。训练大语言模型仅20%计算资源用于预训练，真正决定表现的是后训练阶段——针对特定领域内部基准优化。这意味着拥有相关数据的AI实验室可使模型在你领域的表现与其他基准测试大相径庭。旧范式终结：某个领域更好不再意味着其他领域也好，国际象棋测试中Claude Opus 4.6反而比Sonnet 4.5更低分。ARC AGI 2测试中Gemini 3.1 Pro领先，但改变编码方式准确率就下降 Simple Bench测试中Gemini 3.1 Pro达79.6%，与人类平均水平持平。作者认为已进入AI「感觉」时代——模型表现取决于具体场景，基准测试只能参考，真正重要的是实际使用体验。

Gemini 3.1 Pro与基准测试的终结：欢迎来到AI的「感觉」时代

2026年AI评估实战：一步步构建生产级AI评测系统