Gemini 3.1 Pro与基准测试的式微:欢迎来到AI的氛围时代

Google DeepMind发布的Gemini 3.1 Pro在多项基准测试中取得领先,但实际用户体验存在明显落差。视频揭示了一个关键趋势:当前AI训练范式已发生根本性转变,后训练阶段占比高达80%,而非传统的预训练阶段。这意味着模型能力越来越取决于针对特定领域的微调优化,导致通用智能基准测试逐渐失效。Anthropic首席执行官Dario Amodei提出「专业化即通用」战略——通过足够多的专业领域数据实现能力泛化。视频还分析了基准测试的系统性困境,包括训练数据利用捷径产生的「虚假正确」现象,以及模型在最佳表现与最差表现之间的矛盾。Gemini 3.卡显示1 Pro的模型其「深度思考」模式在实际表现中反而不如不启用,再度印证了CEO发布会负责「炒作」而模型卡负责「去泡沫化」的规律。

February 20, 2026 · 6 min · 2966 words · AIcan