IMO金牌队长、深度思考、On-Policy RL、感受新加坡的AGI — Yi Tay
播客邀请 Google DeepMind 研究员 Yi Tay 分享 IMO 金牌经历。Tay 讲述如何用 Gemini 模型解决 IMO 题目,摒弃 alpha proof 系统,认为模型若无法攻克 IMO 金牌便无法达到 AGI。on-policy RL 与 off-policy RL 的差异在于——前者让模型基于自身输出训练并从奖励信号中自我修正。Tay 认为推理本质是 RL 激发潜力。
播客邀请 Google DeepMind 研究员 Yi Tay 分享 IMO 金牌经历。Tay 讲述如何用 Gemini 模型解决 IMO 题目,摒弃 alpha proof 系统,认为模型若无法攻克 IMO 金牌便无法达到 AGI。on-policy RL 与 off-policy RL 的差异在于——前者让模型基于自身输出训练并从奖励信号中自我修正。Tay 认为推理本质是 RL 激发潜力。