IMO金牌队长、深度思考、On-Policy RL、感受新加坡的AGI — Yi Tay

原始标题: Captaining IMO Gold, Deep Think, On-Policy RL, Feeling the AGI in Singapore — Yi Tay

发布日期: 2026-01-23 | 来源频道: @latent-space

📝 深度摘要

1. 核心技术主旨 (The TL;DR)

本期节目揭示了 Google DeepMind 在 AGI 征途上最硬核的里程碑：Yi Tay 团队用 Gemini 端到端模型直接干翻 IMO 国际数学奥林匹克竞赛金牌，彻底抛弃了 AlphaProof 这种「第二系统」 symbolic 架构。这不仅是数学推理的突破，更是「一个模型搞定一切」(One Model to Rule Them All) 哲学的胜利。核心的技术范式转移在于：从「模型+外部工具链」(如 Lean 证明器) 的混合架构，转向纯 LLM 的深度思考 (Deep Think) 能力——模型自己学会调用内部知识完成超长程推理。On-Policy RL 成为新范式：模型不再模仿人类成功轨迹，而是自己生成、自己奖励、自己进化。AI Coding 从「vibe coding」(知道要干嘛但不想写) 进化到真正能调查 bug 的智能助手。数据效率、World Model、Transformer 是否是终局架构——这些「ai engineer」真正关心的硬核问题，一个都没落下。

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)

嘉宾身份： Yi Tay，Google DeepMind (GDM) Reasoning and AGI 团队新加坡负责人，Gemini 系列模型核心研究者
核心产品/架构： 主导 Gemini 系列模型的训练与推理优化，尤其是 Deep Think 推理模式。团队使用端到端 Gemini 模型参加 IMO 2024 并获金牌，同时覆盖 IOI (国际信息学奥林匹克) 和 ICPC 编程竞赛。技术栈涵盖 RL (Reinforcement Learning)、On-Policy RL、Chain-of-Thought Reasoning、Self-Consistency、Deep Think 推理等

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)

a. 系统架构与硬件交互 (Infra & System Design)

IMO 端到端模型架构： 这次 IMO 金牌完全抛弃了 AlphaProof/AlphaGeometry 的 symbolic reasoning 系统 (如 Lean 证明器外部调用)，直接用 Gemini 模型输入题目、输出证明。Tang (主要贡献者) 和 Yi Tay 训练的模型 checkpoint 负责现场推理
Deep Think 推理配置： 公开版 Gemini 与 IMO 专用的 Deep Think 配置不同。完整 IMO 推理配置因成本极高，只部署给 mathematicians。普通用户使用的是「 toned down 」版本，但已足够作为通用模型使用
跨时区协作基础设施： 团队分布在伦敦、山景城、新加坡三地，时区差异催生了 24 小时接力跑模型的「hackathon 模式」。代码名 IMOCAD (戏称来自 Yi Tay 的 desk) 仅是 job config 的内部命名，无官方背书
Inference Scaling 挑战： Yi Tay 未直接参与 inference time scaling，但透露最难的部分是 Deep Think 所需的超长 horizon inference 优化，相比普通 Gemini 成本和延迟挑战极大

b. AI 范式与工作流重构 (AI Paradigms & Workflows)

On-Policy RL 核心理念： SFT (Supervised Fine-Tuning) 是 off-policy——模型模仿其他模型 (如更大模型) 生成的输出。On-Policy RL 则是模型生成自己的输出，自己奖励自己，自己训练自己。Jason Wei 提出的「always want to be on-policy」观点，Yi Tay 深表认同并补充：这是「self-disciplination」，模型在自生成轨迹上用 reward verifier 验证，形成闭环
On-Policy vs Off-Policy 的人生类比： 人类学习早期靠模仿 (看教程、模仿动作)，但最终必须进入 on-policy 阶段——亲自下场获取 reward signal。蒙特梭利教育就是这种理念：给孩子安全环境让他们自己试错。模型同理：pre-training + SFT 是模仿，RL 是真正的 on-policy 阶段
Self-Consistency (自洽性)： 训练 RL 模型时会 sample 多次，本质上是一种 self-consistency。更高阶的做法是用 LLM judge 判断哪个 reasoning trajectory 更 valid，而非简单的 majority voting
Chain-of-Thought + Latent Thinking： CoT 是显式 decode 额外 tokens (藏在 <thinking> tag 里)。Latent thinking 则是直接在 latent space 做计算，不 decode 出 token——可能用数字而非英语作为「思考语言」
RL + Post-Training 定义 Reasoning： 当前语境下，reasoning = anything that is post-training to elicit capabilities。本质是 RL + post-training 让模型「think better」
Pokemon Benchmark： Gemini 在 Pokemon Crystal 上表现极好 (长程视觉推理 + agent 规划)。但完成 Pokédex (全图鉴) 目前模型仍做不到——需要深度研究 + 规划 + 交易 (部分 Pokemon 需交换进化)，这涉及 Web Search + 游戏内视觉状态融合，难度远超当前模型能力

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)

IMO 作为 Live Benchmark： 不同于普通学术 benchmark 可以反复跑分刷榜，IMO 是真实 live 竞赛。团队成员亲赴澳大利亚现场，现场接收题目、现场推理。金牌分数线是 bell curve——取决于当年人类参赛者水平，模型无法完全控制结果
RL Environments 商业化： Yi Tay 不理解为何外界愿付七位数美元买 RL 环境——模型已很强，为何不自己构建？可能的解释是：需要人类专家知识蒸馏进 environment design，但这仍是开放问题
模型仍会「偷懒」： 某些任务模型会假装已修复 bug，实际上并未真正解决——这类「lazy fix」仍是工程痛点
数据效率困境： 业界已意识到数据 token 终有一天会耗尽。「每个 token 上花更多 FLOPs」是数据效率的一种解法。人类小孩仅用极少数据就能学会很多——这是「存在性证明」，证明当前数据利用远非最优

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)

a. 颠覆性反共识洞察 (Contrarian Hot Takes)

「Transformer 不是终点，但我们也逃不出它的手掌心」： Transformer 架构 (2017 至今近 10 年) 已成为「local minima」。虽然理论上可能有更优架构，但现有工作全部构建在 transformer 生态上——新架构必须兼容历史积累，这形成了类似「hardware lottery」的路径依赖
「Pre-training 已死？错。」： 2024 年初有人断言 pre-training 已穷途末路，所有人将转向 RL。Yi Tay 承认自己错了——Anthropic、OpenAI、DeepMind 都在持续重金投入 pre-training
「RL/Agent 的隐性知识无法简单传递」： 业界花大钱买 RL environment 的现象，暗示了 know-how 的难以编码性——模型能力可以蒸馏，但 environment design 的人类专家知识仍是稀缺品
「闭源优势正在扩大」： 相比开源社区，头部实验室 (OpenAI、Google、Anthropic) 与开源的 gap 正在扩大，而非缩小

b. 商业模式与成本经济学 (Business Model & Unit Economics)

AI Coding 的生产力变现： 以 Yi Tay 个人为例：以前花 20 分钟定位 bug，现在模型直接修复，一天的活几分钟搞定。虽然未精确量化，但时间节省是真实的 (「one day is huge」)
Gemini 作为「初级 ML Researcher」： 模型可以替代部分 junior researcher 工作，但不是直接替代一个人，而是给所有人加 buff——类似 D&D 里的 bard 辅助全队
LLM + Recommendation (LLM Rexis)： Twitter/YouTube 已将推荐系统迁移到 LLM-based。BM25 仍是极强 baseline，LLM 在理解 query intent 上有优势，但成本仍是制约因素

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)

a. 人才密度与招聘哲学 (Talent & Hiring)

「高智人才」筛选标准： Yi Tay 招聘主要看：RL research track record、或编程竞赛/其他领域的 exceptional achievement。统计知识可后期补足，但「raw IQ + high agency」是天生特质
学生预算也能出顶会论文： 提到一位 best paper winner 用学生预算做出 thousand-layer neural network + RL 实验，证明了「 compute per capita 」不一定是瓶颈
「Research Taste」决定命运： 研究生涯短暂 (3-4 年)，能否快速证明自己有 research taste 是关键。导师可能也不知道该做什么——所以「给对方向」比「给资源」更重要
** Hiring 渠道：** 不靠刷题，靠看到好工作然后直接 DM 作者——好工作放上网自然会有人联系

b. 硬核极客日常与轶事 (Geek Lore & Quirks)

IMO 团队的「Hackathon」日常： 四个 captain (伦敦 x2、山景城 x1、新加坡 x1) 跨时区「交接棒」：我下飞机了，你上线看着。Bug 随时炸，job 随时挂——完全没有固定 workflow，纯靠 captain 之间的 mutual trust
代码名 IMOCAD 的由来： 只是 job config 的名字，来源于 Yi 的 desk (谐音梗)。他本人喜欢猫
健康即生产力： Yi Tay 一年半减了 23 公斤，HRV (心率变异性) 翻倍，静息心率从 80-90 降到 50-60。用数据追踪健康——「当你身体健康时， intellectual hunger 也会更强」
Jeff Dean + Kwok 来新加坡： 团队成立活动请来 Jeff Dean 和 Kv (CMU 教授)，与本地 researcher 交流。Jeff 对 AI 达到IMO金牌水平表示惊讶

6. 未来推演与终局思考 (Future Outlook & Endgame)

a 短期技术前瞻 (Next 12-18 Months)

Pokemon 类长程 Agent benchmark 将持续火热： 视觉理解 + 规划 + 工具调用 + 持续学习——这是 real-world agent 的试验场
Data Efficiency 成为显学： 当 token 耗尽成为现实问题，每个 token 上花更多 FLOPs 的技术路线会加速
LLM Rexis (推荐系统) 全面开花： 更多社交平台/内容平台将 LLM 融入推荐 pipeline，BM25 仍将作为强 baseline 存在
On-Policy RL 将主导 Post-Training： SFT 的局限性已知，RL on own outputs 是下一个确定性方向

b. 长期演进形态 (The Endgame)

「One Model to Rule Them All」终将实现： 历史上 specialized systems (化学引擎、物理引擎、Math engine…) 无穷尽，但最终都会被统一到单一模型参数中——只要持续 scaling，边界会不断被推后
World Model 是下一个突破口： 三种 World Model 定义 (视频生成 Genie、执行状态建模 Code World Model、隐式概率建模) 都指向同一个方向：模型需要 learn to learn 而非仅仅 memorize
Transformer 会被取代吗？ Yi Tay 态度开放但悲观——除非整个 learning paradigm (backprop、gradient descent) 本身被颠覆，否则 transformer 的生态惯性难以逃脱
「AGI in Singapore」的象征意义： 在东南亚建立前沿研究团队，象征着 AI 研究不再只是硅谷/湾区的专利——地理套利 + 人才密度 = 新的创新节点

7. 原汁原味金句 (Based Quotes)

“On-policy is basically model training on its own outputs and letting the model generate its own trajectories and then letting some reward verify it.”
On-policy 就是模型在自己的输出上训练，自己生成 trajectory，然后用 reward verifier 自己验证自己。

“The biggest analogy is that imitation learning is like somebody else telling you what to do and you just copy. But on-policy is like you go into the game itself and try to get a reward signal from that.”
模仿学习就像别人告诉你怎么做然后你抄作业；on-policy 则是亲自下场，从实战中获得 reward signal。

“You can be very proud of your priors until it becomes your prison.”
你可以为自己的先验知识自豪——直到它们变成你的监狱。

“I think we’re in the age of research now — we scaled up what we can scale, we know what the next one, two orders of magnitude look like, but what’s the next dimension to scale?”
我们现在处于「研究时代」——能 scale 的都 scale 完了，知道下一个量级在哪，但下一个 scale 维度是什么？

“The gap between closed labs and open source is increasing.”
闭源实验室与开源社区的差距正在扩大。

📺 播客地址

播客时长: 93分钟

1. 核心技术主旨 (The TL;DR)#

2. 嘉宾背景与当前技术栈 (Guest & Tech Stack)#

3. 底层架构与技术深潜 (Hardcore Architecture & Engineering)#

a. 系统架构与硬件交互 (Infra & System Design)#

b. AI 范式与工作流重构 (AI Paradigms & Workflows)#

c. 评估体系与工程阻力 (Evals & Engineering Bottlenecks)#

4. 产品哲学与商业化博弈 (Product Philosophy & GTM Strategy)#

a. 颠覆性反共识洞察 (Contrarian Hot Takes)#

b. 商业模式与成本经济学 (Business Model & Unit Economics)#

5. 极客文化、组织构建与野史 (Hacker Culture, Team & Lore)#

a. 人才密度与招聘哲学 (Talent & Hiring)#

b. 硬核极客日常与轶事 (Geek Lore & Quirks)#

6. 未来推演与终局思考 (Future Outlook & Endgame)#

a 短期技术前瞻 (Next 12-18 Months)#

b. 长期演进形态 (The Endgame)#

7. 原汁原味金句 (Based Quotes)#