DeepMind新AI如何预测看不见的事物
Google DeepMind发布D4RT技术,能够仅凭一段输入视频自动重建包含时间维度的4D动态三维场景。该技术采用单一Transformer架构取代传统多模型pipeline,通过稀疏查询机制实现完全并行化推理,速度提升最高达300倍。其核心创新在于遮挡追踪功能——即使物体暂时被遮挡,仍能基于时序上下文预测其完整运动轨迹。这项技术可用于VR场景生成、机器人感知、自动驾驶环境建模等领域,标志着AI从2D视频理解3D空间现实的重要突破。
Google DeepMind发布D4RT技术,能够仅凭一段输入视频自动重建包含时间维度的4D动态三维场景。该技术采用单一Transformer架构取代传统多模型pipeline,通过稀疏查询机制实现完全并行化推理,速度提升最高达300倍。其核心创新在于遮挡追踪功能——即使物体暂时被遮挡,仍能基于时序上下文预测其完整运动轨迹。这项技术可用于VR场景生成、机器人感知、自动驾驶环境建模等领域,标志着AI从2D视频理解3D空间现实的重要突破。