Gemini 3.1 Pro与基准测试的式微：欢迎来到AI的氛围时代

原始标题: Gemini 3.1 Pro and the Downfall of Benchmarks: Welcome to the Vibe Era of AI

发布日期: 2026-02-20 | 来源频道: @aiexplained-official

📝 深度摘要

1. 对话背景与核心主题

本期视频发布于谷歌发布 Gemini 3.1 Pro 后的 24 小时内，作者通过数百次测试，深入探讨了一个核心问题：为何社交媒体上关于“最强 AI 模型”的争议从未停止，各种评测结果相互矛盾。作者指出，这种现象并非偶然，而是源于当前 AI 行业范式的根本性转变——从“通用智能时代”进入“领域专业化时代”。视频标题中的"Vibe Era"（氛围时代）正是对这一现象的讽刺性描述：人们不再依据客观指标评判模型，而是依据主观感受和品牌光环。

2. 核心干货概览

训练范式转移：大语言模型的预训练阶段仅占用 20% 的计算资源，80% 用于后训练阶段，模型通过针对特定领域的内部基准进行优化
基准测试失真：ARC AGI 2 等基准存在数字编码漏洞，模型可利用数字模式的算术捷径“作弊”得分
领域分化现象：Gemini 3.1 Pro 在编码和科学推理基准上领先，但在综合任务基准上落后于 Claude Opus 4.6
Simple Bench 突破：Gemini 3.1 Pro 在 Simple Bench 上达到 79.6%，进入人类平均水平的误差范围
幻觉问题：Gemini 3.1 Pro 在 50% 的错误答案中出现幻觉，而 Claude Sonnet 4.6 为 38%，中国模型 GLM 5 仅 34%
推理速度革命：定制芯片模型达到每秒 1000 tokens 的输出速度，预示未来应用可在毫秒级创建

3. 深度技术拆解

3.1 后训练阶段的崛起

传统观念认为 AI 模型的智能主要来自预训练阶段——在互联网规模数据上的大规模学习。然而视频揭示了一个关键转变：如今 80% 的训练计算资源流向“后训练”阶段。这一阶段涉及使用行业特定数据对基础模型进行微调，针对特定领域优化基准分数。这意味着如果某AI实验室拥有与你工作领域相关的数据，并针对该领域进行后训练优化，你使用该模型的体验可能与基准测试显示的结果截然不同。一年前，Anthropic 首席执行官达里奥·阿马戴伊曾承认：“所有玩家的第二阶段（强化学习阶段）投入都很小”，而今天这一比例已发生根本性逆转。

3.2 基准测试的脆弱性

视频深入分析了 ARC AGI 2 基准测试的问题。谷歌 DeepMind 首席执行官德米斯·哈萨比斯在 Gemini 3.1 Pro 发布推文中重点宣传该基准的 77.1% 得分，领先 Claude Opus 4.6 的 69%。然而，AI 研究者梅兰妮·米切尔指出：如果将输入编码从数字改为其他符号，准确率会显著下降。原因在于 ARC 任务中代表颜色的数字包含隐藏的算术模式，模型可以利用这些意外模式获得正确答案——这并非严格意义上的“作弊”，而是模型利用一切可能的捷径达成目标。视频还提到，简单基准测试同样存在漏洞：多项选择题中的“零”选项会提示模型这可能是陷阱问题，导致性能虚高。当移除多项选择、改为开放式问答并使用盲评模型比较答案时，分数会下降 15-20 个百分点。

3.3 Deep Think 模式的悖论

谷歌模型卡片披露了一个有趣现象：Ultra 订阅用户可使用的“深度思考”模式实际上表现更差。模型卡片明确指出：“考虑到推理成本，启用深度思考的模型表现明显不如不启用深度思考的模型。即使在高频推理条件下，启用深度思考的结果也不表明比不启用更高能力。”这一发现与用户对“更多推理时间=更好结果”的直觉相悖，揭示了当前推理时间缩放技术的局限性。

4. 行业格局与战略分析

4.1 安thropic 的豪赌

视频详细解读了安thropic 首席执行官达里奥·阿马戴伊的战略思路。他被问及：既然模型会持续变得更智能，为何还需要在 Slack 或浏览器使用等特定 RL 环境中进行专业化训练？阿马戴伊的回答具有战略意义：“我们尝试获取大量数据，不是因为想覆盖特定文档或技能，而是因为我们想要泛化。”作者认为这揭示了一个关键洞察：如果在足够多的专业领域进行专业化训练，最终将实现对所有领域的泛化。阿马戴伊进一步断言，即使没有持续学习、没有在岗学习、没有用户向模型传授领域知识，也可以在数据中心实现“AGI 或超级智能或天才之国”。这一观点意味着：人类训练数据中的模式是有限的，当专业化领域足够多时，模型将能够推断出普遍规律。

4.2 上下文窗口的扩张

阿马戴伊提出的另一个关键策略是扩展上下文窗口。他表示，Claude 4.6 现在可以容纳 75 万个词汇的上下文，短期内可能达到数百万。这意味着模型可能只需少量领域特定上下文就能完成工作——用户不再需要模型预先了解你的领域知识，只需在提示中提供足够的背景信息即可。这种“上下文学习”策略绕过了持续学习的难题，成为 AI 能力扩展的新路径。

4.3 商业收入指数

视频引用 Epoch AI 的数据揭示了 AI 行业的财务现实：Anthropic 的年收入以每年 10 倍的速度增长（截至 2025 年底），而 OpenAI 为 3.4 倍。虽然 OpenAI 基数更大，但如果这些趋势持续到 2026 年中期，Anthropic 可能实现营收超越。这一预测为行业竞争格局增添了新的不确定性。

5. 核心干货运用

5.1 基准选择的务实指南

视频为用户提供了实用的基准评估框架：首先区分“通用基准”（如 MMLU、HumanEval）和“领域基准”（如 SWE-Bench、GPQA），理解模型在不同类别上的表现可能存在显著差异。其次，关注基准的创建者——许多基准现在由 AI 实验室自己编写，存在固有偏见。第三，将基准分数与实际使用体验结合判断，视频中 Gemini 3.1 Pro 在 LiveCodeBench 上创下纪录，但在实际编程中表现不如预期。

5.2 模型选择的实用建议

作者建议用户建立自己的“私人基准”——使用自己实际工作中的问题测试模型，而非依赖公开基准。视频提到作者创建的 lmil.ai 网站，可用于比较不同模型对同一问题的回答。对于关注速度的场景，视频展示了每秒近 1000 tokens 的输出速度，暗示速度将成为未来重要的评估维度。

6. 风险、伦理与安全

6.1 预测市场的潜在操纵

视频提出了一个前瞻性问题：当 AI agent 大规模存在于预测市场时，模型可能同时进行某项行动并对结果下注获利。Metaculus 等预测平台已观察到模型的预测性能显著提升，接近普通人类预测者的水平。然而，一旦模型能够直接影响现实世界以改变预测结果，整个预测市场的可信度将受到根本性威胁。

6.2 基准过度优化

作者警告了一个关键风险：AI 实验室可以通过基准过度优化制造“虚假智能”表象。这种现象在多个基准测试中已见端倪——模型发现特定输入模式的捷径，而非发展出真正的推理能力。这对 AI 安全评估具有重要意义：当模型在基准上表现优异时，可能掩盖其在真实世界任务中的潜在缺陷。

6.3 安全性披露的不对称

视频批评了 AI 行业安全性披露的不对称现象：模型发布时 CEO 的推文和发布视频负责“炒作”，而模型卡片和安全报告负责“去炒作”。Gemini 3.1 的模型卡片仅 9 页，其中关于网络安全的部分显示深度思考模式表现更差——这种信息的传播往往不如发布公告引人注目。

7. 金句

“在旧的范式下，如果一个模型在某一领域明显更好，它很可能在许多或所有领域都更好。这种情况已不复存在。”
“足够先进的智能体编程本质上就是机器学习。你得到了一个能完成任务的代码库，但你不必检查其内部逻辑。”
“模型很擅长走捷径。如果你用不同的方式问同样的问题，性能可能会有很大不同。但这并不意味着性能降到了零——前沿模型即使在未直接训练的领域也在真正变好。”
“如果不能接受我的低谷，也不配拥有我的高峰——对于所有模型，你都必须处理这种权衡。”
“如果你专业化足够多的专业领域，你就会泛化到所有专业领域。”
“2026 年和 2027 年的核心问题之一是：你需要在多大程度上训练所有不同的领域和子领域 versus 在它们之间泛化普遍模式。”

*本报告基于公开信息整理，仅供参考。AI 技术发展迅速，具体模型性能和行业格局可能随时变化。

📺 视频原片

视频ID: 2_DPnzoiHaY

📝 深度摘要#

1. 对话背景与核心主题#

2. 核心干货概览#

3. 深度技术拆解#

3.1 后训练阶段的崛起#

3.2 基准测试的脆弱性#

3.3 Deep Think 模式的悖论#

4. 行业格局与战略分析#

4.1 安thropic 的豪赌#

4.2 上下文窗口的扩张#

4.3 商业收入指数#

5. 核心干货运用#

5.1 基准选择的务实指南#

5.2 模型选择的实用建议#

6. 风险、伦理与安全#

6.1 预测市场的潜在操纵#

6.2 基准过度优化#

6.3 安全性披露的不对称#

7. 金句#

📺 视频原片#