基准测试失效

Google DeepMind发布的Gemini 3.1 Pro在多项基准测试中取得领先，但实际用户体验存在明显落差。视频揭示了一个关键趋势：当前AI训练范式已发生根本性转变，后训练阶段占比高达80%，而非传统的预训练阶段。这意味着模型能力越来越取决于针对特定领域的微调优化，导致通用智能基准测试逐渐失效。Anthropic首席执行官Dario Amodei提出「专业化即通用」战略——通过足够多的专业领域数据实现能力泛化。视频还分析了基准测试的系统性困境，包括训练数据利用捷径产生的「虚假正确」现象，以及模型在最佳表现与最差表现之间的矛盾。Gemini 3.卡显示1 Pro的模型其「深度思考」模式在实际表现中反而不如不启用，再度印证了CEO发布会负责「炒作」而模型卡负责「去泡沫化」的规律。