深度网络 | AI 产品洞察与技术趋势 Feeds

普林斯顿大学 Kevin Wang 团队凭借深度自监督强化学习研究斩获 NeurIPS 最佳论文奖。与 NLP 和视觉领域已普遍采用数百亿参数的大模型不同，传统 RL 长期停留在两三层的浅层网络。该团队尝试将网络堆叠至上千层时，最初效果反而下降，直到引入残差连接、层归一化等关键架构改进后，深度模型才显现出显著的性能跃升。研究采用自监督目标而非传统价值函数，通过对比损失学习状态-动作表征，将同轨迹的表征拉近、不同轨迹的表征拉远，从而在无需人工设计奖励信号的情况下解决目标达成任务。实验表明，深度扩展比宽度扩展更具参数效率，且随着网络容量提升，批量大小的扩展也变得有效。作者指出，这一方法模糊了强化学习与自监督学习的边界，未来有望推动机器人操作等领域的可扩展训练。