IMO金牌

播客邀请 Google DeepMind 研究员 Yi Tay 分享 IMO 金牌经历。Tay 讲述如何用 Gemini 模型解决 IMO 题目，摒弃 alpha proof 系统，认为模型若无法攻克 IMO 金牌便无法达到 AGI。on-policy RL 与 off-policy RL 的差异在于——前者让模型基于自身输出训练并从奖励信号中自我修正。Tay 认为推理本质是 RL 激发潜力。