原始标题: RJ Scaringe: Self-Driving Cars, Next 10 years Changes EVERYTHING, Robots, AI impacts Society MORE
发布日期: 2026-03-12 | 来源频道: @matthew_berman
📝 深度摘要
1. 讨论背景与核心主题
R.J. Scaringe(RJ·斯坎伦)是Rivian(瑞维安)电动汽车的创始人兼CEO,同时也是一家专注于机器人技术的公司Mind Robotics的创始人。2025年,Rivian实现了首个完整年度盈利,毛利润达到1.44亿美元。2026年交付量预计同比增长50%。本次访谈聚焦于Rivian最新车型R2的技术细节、公司战略转型、以及AI与自动驾驶对未来社会的深远影响。RJ在访谈中深入阐述了物理世界AI(physical world AI)将比数字世界AI产生更深刻的社会变革,并预测未来10-15年将是人类历史上最重要的转型期。
2. 核心干货概览 (Technical Takeaways & Stack)
| 类别 | 名称 | 核心用途 / 技术意义 |
|---|---|---|
| 车型平台 | Rivian R2 | 面向大众市场的高性价比电动SUV,起售价45,000美元,约为主销车型R1价格的一半 |
| 自动驾驶架构 | Gen 2 (第二代) | 采用端到端(End-to-End)Transformer神经网络架构,区别于Gen 1的传统规则引擎方案 |
| 核心硬件 | 自研推理芯片 | 800 TOPS算力芯片,为自动驾驶模型提供充足计算冗余 |
| 传感器配置 | 65百万像素摄像头 + 激光雷达(LAR) | R2量产版将配备激光雷达,构建多模态感知体系 |
| 数据策略 | 车队数据飞轮 | 通过已售车辆实时采集驾驶数据,用于模型训练与迭代 |
| 软件体系 | 100%自研 | 信息娱乐、仪表盘、HVAC空调系统全部内部开发,确保体验一致性 |
3. 技术深度拆解与实战 SOP (Technical Deep Dive / SOP)
3.1 自动驾驶技术范式转移
RJ详细解释了2022年前后自动驾驶技术的根本性转变。早期的自动驾驶系统采用感知-规划-控制(Perception-Planning-Control)三阶段架构:感知层由摄像头、雷达、激光雷达组成,负责识别和分类物体(行人、车辆、摩托车、自行车、犬类),并为每个目标关联速度与加速度矢量;规划层则依赖基于人工预设规则的规则引擎(rules-based environment),定义车辆在各种场景下的行为模式。
这种传统架构面临两大核心挑战:其一,需要庞大的工程师团队手动编写数以万计的驾驶规则代码;其二,对传感器配置和运行环境高度敏感——在旧金山适用的规则无法直接迁移到纽约或伦敦。RJ以人类驾驶员为例:如果一个人在迈阿密长大,突然被放置到旧金山,他能迅速适应完全不同的驾驶风格,这是因为人类并非依赖纯规则驱动,而是基于神经网络化的理解与经验积累。
转折点出现在2022年,整个行业转向基于Transformer的端到端神经网络方案。Rivian的Gen 2车型采用这一新范式,利用大规模车队数据训练"大型驾驶模型"(Large Driving Model),该模型是端到端神经网络的驾驶知识表示,能够从原始传感器数据直接输出控制指令。
3.2 数据飞轮战略
Rivian的自动驾驶能力建立在数据飞轮(Data Flywheel)之上,这一战略包含以下关键环节:
数据采集机制:每一辆在运行的Rivian车辆都是数据采集节点。系统定义了"有趣事件"(interesting events)的触发条件,包括:交通事故(自动记录前后视频)、紧急制动、异常驾驶行为等。此外,系统还实现了影子模式(Shadow Mode)——自动驾驶模型在后台持续运行,与人类驾驶员的实际操作进行对比。当驾驶员的行为与模型预测不符时(如变道而模型认为无需变道),该场景被标记为训练数据。
数据量级:截至2025年,R1车队累计行驶里程已达数百万英里。随着R2车型上市(预计数百万辆规模),日均采集里程将进一步放大。RJ强调,并非所有驾驶数据都有价值——高速公路上"你前方五秒的场景与之前五秒完全相同"这类数据缺乏信息量。Rivian构建了一套智能筛选系统,仅捕获对模型训练有价值的数据。
合成数据策略:RJ认为合成数据将在长期发挥更大作用,但目前仍依赖真实数据作为基础。具体做法是对真实场景进行扰动(perturbation)——例如创建"两辆车同时从左右两侧变道切入"的极端场景,用于测试模型响应并训练应对策略。
3.3 R2平台的技术传承与突破
R2是Rivian从高端市场向大众市场扩张的关键产品。RJ透露了开发过程中的核心决策:
成本控制路径:R1开发始于2017-2019年期间,彼时公司规模尚小。R2的开发吸收了R1在生产爬坡和成本优化方面的全部经验教训。R1采用复杂的电液悬挂系统(electro-hydraulic damping),可实现约6英寸的动态悬架高度调节,这一配置成本高昂。R2退而采用更简单的半主动减震器,但通过更优雅的工程实现仍保持了出色的性能。
轻量化成果:R2虽然尺寸更小,但比R1轻了超过2000磅。更令人惊讶的是,R2比同级别的燃油车竞品更轻,这对电动车而言极为罕见。车身结构扭转刚度反而高于R1,体现了工程设计上的进步。
安全标准:R1S是同级别最安全的SUV(无论动力形式)。RJ明确表示,R2将成为该尺寸类别中安全性最高的车型。
团队协作模式:R2项目同时有约5000人参与开发。RJ将整车开发比喻为"数千人同时演奏的交响乐"——必须确保前备箱、后备箱、后视镜等由不同团队开发的部件具有一致的"手感"与"品牌调性"。Rivian通过大量决策对齐会议(discussion forums)来确保跨团队的一致性。
4. 核心干货运用 (Prompts & Configuration)
4.1 端到端自动驾驶模型训练pipeline
Rivian的自动驾驶pipeline可概括为以下数据流:
- 原始传感器输入:摄像头(65MP)+ 激光雷达(LAR)原始数据
- 端到端神经网络:基于Transformer架构的大型驾驶模型,直接输出轨迹规划与控制指令
- 离线训练平台:利用GPU集群进行大规模模型训练,数据来源于部署车辆的回传
- 影子模式验证:新模型部署后与人类驾驶员行为对比,持续迭代优化
4.2 R2硬件配置参数
- 摄像头:65百万像素(总计),覆盖360度视野
- 算力芯片:自研800 TOPS推理芯片
- 激光雷达(LAR):将于R2量产版后期搭载
- 软件架构:100%内部自研,区别于传统车企依赖数十个第三方软件供应商的碎片化模式
4.3 传感器策略解读
针对特斯拉"纯视觉"方案与Waymo"多传感器融合"方案的对比,RJ阐述了自己的观点:他不认为纯视觉能够实现完全自动驾驶。R2最终采用摄像头+激光雷达的融合方案,理由是激光雷达能够提供额外的安全冗余——特别是在极端天气、低光照等视觉传感器性能下降的场景中。RJ以人类驾驶员为例:人类在夜间会主动降低车速,因为视觉能力受限;同理,自动驾驶系统也应具备超越纯视觉的感知能力。
5. 极客洞察与避坑指南 (Geek Insights & Boundary)
5.1 反直觉技术结论
- 端到端神经网络优于规则引擎:在2022年前,业界普遍认为基于规则的方案更可控、可解释。但实际测试表明,端到端方案在泛化能力、场景适应速度上具有压倒性优势,能够像人类一样"学会"在不同城市驾驶,而无需为每个城市编写独立规则。
- 更轻的电动车:通常电动车因电池组重量而比燃油车更重,但R2通过全新的底盘和车身结构设计,实现了比同级别燃油车更轻的整备质量,这对能效和操控都是突破。
- 激光雷达的不可替代性:尽管特斯拉倡导纯视觉路线,但多传感器融合在安全关键场景中提供的冗余度是纯视觉方案短期内无法替代的。
5.2 适用边界与风险
- Level 3(脱手脱眼):预计2027年实现,届时驾驶员可在车内使用手机或阅读
- Level 4(完全无人驾驶):预计2028-2029年或最晚2030年代初,类似于Waymo的 robo-taxi 服务将普及到个人车辆
- API与合规风险:自动驾驶系统的安全验证需要海量的实际行驶数据与仿真测试,各国监管审批流程存在不确定性
5.3 实战陷阱
- 数据质量比数量更重要:并非所有驾驶数据都有价值,Rivian的"有趣事件"筛选机制避免了数据标注的浪费
- 传感器配置敏感性:传统方案更换传感器硬件后需大量重新适配,而端到端方案对传感器变化的鲁棒性更强
- 团队协调复杂性:5000人同时开发同一产品,必须在"决策框架"层面达成一致,而非仅依赖个人经验
6. 金句 (Golden Quotes)
- “物理世界的人工智能将比数字世界的人工智能更深刻地重塑社会——它将改变数千年来人类社会的运作方式。”
- “未来5年自动驾驶能力的增长将达到超乎想象的速度,因为我们正在见证一个范式转移——从规则驱动走向数据驱动的神经网络。”
- “开发一辆汽车涉及数百万个决策,而我们的目标是让这数百万个决策看起来像是同一个大脑做出的。”
- “人类驾驶员在并排卡车和紧凑型轿车之间的行为差异并无数学上的必要性,但这是人类想要的安全感——而我们正在通过车队数据让模型学会这种’拟人化’的驾驶风格。”
- “下一辆车的功能将不再局限于’驾驶’——它可以自己去学校接孩子、去超市购物,汽车所有权将被重新定义。”
📺 视频原片
视频ID: nsmGQ7tPSds