[NeurIPS最佳论文]千层网络用于自监督强化学习—普林斯顿大学Kevin Wang等

普林斯顿大学 Kevin Wang 团队凭借深度自监督强化学习研究斩获 NeurIPS 最佳论文奖。与 NLP 和视觉领域已普遍采用数百亿参数的大模型不同,传统 RL 长期停留在两三层的浅层网络。该团队尝试将网络堆叠至上千层时,最初效果反而下降,直到引入残差连接、层归一化等关键架构改进后,深度模型才显现出显著的性能跃升。研究采用自监督目标而非传统价值函数,通过对比损失学习状态-动作表征,将同轨迹的表征拉近、不同轨迹的表征拉远,从而在无需人工设计奖励信号的情况下解决目标达成任务。实验表明,深度扩展比宽度扩展更具参数效率,且随着网络容量提升,批量大小的扩展也变得有效。作者指出,这一方法模糊了强化学习与自监督学习的边界,未来有望推动机器人操作等领域的可扩展训练。

January 2, 2026 · 6 min · 2847 words · @latent-space