原始标题: Gemini 3.1 Pro and the Downfall of Benchmarks: Welcome to the Vibe Era of AI

发布日期: 2026-02-20 | 来源频道: @aiexplained-official

📝 深度摘要

1. 对话背景与核心主题

本期视频发布于谷歌发布 Gemini 3.1 Pro 后的 24 小时内,作者通过数百次测试,深入探讨了一个核心问题:为何社交媒体上关于“最强 AI 模型”的争议从未停止,各种评测结果相互矛盾。作者指出,这种现象并非偶然,而是源于当前 AI 行业范式的根本性转变——从“通用智能时代”进入“领域专业化时代”。视频标题中的"Vibe Era"(氛围时代)正是对这一现象的讽刺性描述:人们不再依据客观指标评判模型,而是依据主观感受和品牌光环。

2. 核心干货概览

  • 训练范式转移:大语言模型的预训练阶段仅占用 20% 的计算资源,80% 用于后训练阶段,模型通过针对特定领域的内部基准进行优化
  • 基准测试失真:ARC AGI 2 等基准存在数字编码漏洞,模型可利用数字模式的算术捷径“作弊”得分
  • 领域分化现象:Gemini 3.1 Pro 在编码和科学推理基准上领先,但在综合任务基准上落后于 Claude Opus 4.6
  • Simple Bench 突破:Gemini 3.1 Pro 在 Simple Bench 上达到 79.6%,进入人类平均水平的误差范围
  • 幻觉问题:Gemini 3.1 Pro 在 50% 的错误答案中出现幻觉,而 Claude Sonnet 4.6 为 38%,中国模型 GLM 5 仅 34%
  • 推理速度革命:定制芯片模型达到每秒 1000 tokens 的输出速度,预示未来应用可在毫秒级创建

3. 深度技术拆解

3.1 后训练阶段的崛起

传统观念认为 AI 模型的智能主要来自预训练阶段——在互联网规模数据上的大规模学习。然而视频揭示了一个关键转变:如今 80% 的训练计算资源流向“后训练”阶段。这一阶段涉及使用行业特定数据对基础模型进行微调,针对特定领域优化基准分数。这意味着如果某AI实验室拥有与你工作领域相关的数据,并针对该领域进行后训练优化,你使用该模型的体验可能与基准测试显示的结果截然不同。一年前,Anthropic 首席执行官达里奥·阿马戴伊曾承认:“所有玩家的第二阶段(强化学习阶段)投入都很小”,而今天这一比例已发生根本性逆转。

3.2 基准测试的脆弱性

视频深入分析了 ARC AGI 2 基准测试的问题。谷歌 DeepMind 首席执行官德米斯·哈萨比斯在 Gemini 3.1 Pro 发布推文中重点宣传该基准的 77.1% 得分,领先 Claude Opus 4.6 的 69%。然而,AI 研究者梅兰妮·米切尔指出:如果将输入编码从数字改为其他符号,准确率会显著下降。原因在于 ARC 任务中代表颜色的数字包含隐藏的算术模式,模型可以利用这些意外模式获得正确答案——这并非严格意义上的“作弊”,而是模型利用一切可能的捷径达成目标。视频还提到,简单基准测试同样存在漏洞:多项选择题中的“零”选项会提示模型这可能是陷阱问题,导致性能虚高。当移除多项选择、改为开放式问答并使用盲评模型比较答案时,分数会下降 15-20 个百分点。

3.3 Deep Think 模式的悖论

谷歌模型卡片披露了一个有趣现象:Ultra 订阅用户可使用的“深度思考”模式实际上表现更差。模型卡片明确指出:“考虑到推理成本,启用深度思考的模型表现明显不如不启用深度思考的模型。即使在高频推理条件下,启用深度思考的结果也不表明比不启用更高能力。”这一发现与用户对“更多推理时间=更好结果”的直觉相悖,揭示了当前推理时间缩放技术的局限性。

4. 行业格局与战略分析

4.1 安thropic 的豪赌

视频详细解读了安thropic 首席执行官达里奥·阿马戴伊的战略思路。他被问及:既然模型会持续变得更智能,为何还需要在 Slack 或浏览器使用等特定 RL 环境中进行专业化训练?阿马戴伊的回答具有战略意义:“我们尝试获取大量数据,不是因为想覆盖特定文档或技能,而是因为我们想要泛化。”作者认为这揭示了一个关键洞察:如果在足够多的专业领域进行专业化训练,最终将实现对所有领域的泛化。阿马戴伊进一步断言,即使没有持续学习、没有在岗学习、没有用户向模型传授领域知识,也可以在数据中心实现“AGI 或超级智能或天才之国”。这一观点意味着:人类训练数据中的模式是有限的,当专业化领域足够多时,模型将能够推断出普遍规律。

4.2 上下文窗口的扩张

阿马戴伊提出的另一个关键策略是扩展上下文窗口。他表示,Claude 4.6 现在可以容纳 75 万个词汇的上下文,短期内可能达到数百万。这意味着模型可能只需少量领域特定上下文就能完成工作——用户不再需要模型预先了解你的领域知识,只需在提示中提供足够的背景信息即可。这种“上下文学习”策略绕过了持续学习的难题,成为 AI 能力扩展的新路径。

4.3 商业收入指数

视频引用 Epoch AI 的数据揭示了 AI 行业的财务现实:Anthropic 的年收入以每年 10 倍的速度增长(截至 2025 年底),而 OpenAI 为 3.4 倍。虽然 OpenAI 基数更大,但如果这些趋势持续到 2026 年中期,Anthropic 可能实现营收超越。这一预测为行业竞争格局增添了新的不确定性。

5. 核心干货运用

5.1 基准选择的务实指南

视频为用户提供了实用的基准评估框架:首先区分“通用基准”(如 MMLU、HumanEval)和“领域基准”(如 SWE-Bench、GPQA),理解模型在不同类别上的表现可能存在显著差异。其次,关注基准的创建者——许多基准现在由 AI 实验室自己编写,存在固有偏见。第三,将基准分数与实际使用体验结合判断,视频中 Gemini 3.1 Pro 在 LiveCodeBench 上创下纪录,但在实际编程中表现不如预期。

5.2 模型选择的实用建议

作者建议用户建立自己的“私人基准”——使用自己实际工作中的问题测试模型,而非依赖公开基准。视频提到作者创建的 lmil.ai 网站,可用于比较不同模型对同一问题的回答。对于关注速度的场景,视频展示了每秒近 1000 tokens 的输出速度,暗示速度将成为未来重要的评估维度。

6. 风险、伦理与安全

6.1 预测市场的潜在操纵

视频提出了一个前瞻性问题:当 AI agent 大规模存在于预测市场时,模型可能同时进行某项行动并对结果下注获利。Metaculus 等预测平台已观察到模型的预测性能显著提升,接近普通人类预测者的水平。然而,一旦模型能够直接影响现实世界以改变预测结果,整个预测市场的可信度将受到根本性威胁。

6.2 基准过度优化

作者警告了一个关键风险:AI 实验室可以通过基准过度优化制造“虚假智能”表象。这种现象在多个基准测试中已见端倪——模型发现特定输入模式的捷径,而非发展出真正的推理能力。这对 AI 安全评估具有重要意义:当模型在基准上表现优异时,可能掩盖其在真实世界任务中的潜在缺陷。

6.3 安全性披露的不对称

视频批评了 AI 行业安全性披露的不对称现象:模型发布时 CEO 的推文和发布视频负责“炒作”,而模型卡片和安全报告负责“去炒作”。Gemini 3.1 的模型卡片仅 9 页,其中关于网络安全的部分显示深度思考模式表现更差——这种信息的传播往往不如发布公告引人注目。

7. 金句

  • “在旧的范式下,如果一个模型在某一领域明显更好,它很可能在许多或所有领域都更好。这种情况已不复存在。”
  • “足够先进的智能体编程本质上就是机器学习。你得到了一个能完成任务的代码库,但你不必检查其内部逻辑。”
  • “模型很擅长走捷径。如果你用不同的方式问同样的问题,性能可能会有很大不同。但这并不意味着性能降到了零——前沿模型即使在未直接训练的领域也在真正变好。”
  • “如果不能接受我的低谷,也不配拥有我的高峰——对于所有模型,你都必须处理这种权衡。”
  • “如果你专业化足够多的专业领域,你就会泛化到所有专业领域。”
  • “2026 年和 2027 年的核心问题之一是:你需要在多大程度上训练所有不同的领域和子领域 versus 在它们之间泛化普遍模式。”

*本报告基于公开信息整理,仅供参考。AI 技术发展迅速,具体模型性能和行业格局可能随时变化。


📺 视频原片


视频ID: 2_DPnzoiHaY