自动驾驶技术是未来交通的关键,但也是全球科技巨头争夺的新“战场”,一旦谁在此领域有突破,玩家们都会不留余力地加码!比如在早几年,多数公司依赖模仿学习推动自动驾驶的进步,靠着拍摄人类驾驶的视频数据来训练模型,在感知层面迅速取得了进展。但这套方法的性能很快就碰到了天花板,因为模型只能学会动作的模式,却很难真正理解“为什么要踩刹车”这类因果关系。
模仿学习模仿的只是行为,而不是物理世界的规律。
而到了近期,中国公司Momenta开始转向世界模型的思路,试图让AI像人一样“预测下一帧”来理解物理世界,并以此反超了传统方案。所以,整个行业开始把目光投向这个新方向,虽然模仿学习依然有效,但Momenta不是丰田,传统车企更不是Anthropic,自知之明的科技企业绝不会固步自封!
如今自动驾驶行业逐渐放弃单一Robotaxi路线,转向多场景规模化落地。当下Momenta拥有约90万辆量产车和超过100亿公里真实驾驶数据,这些数据不仅支撑了R7世界模型的训练,更让AI能够理解惯性、碰撞和行人行为等因果关系。即便没有强算力的边缘设备,但通过数据飞轮——量产车队持续产生数据、OTA升级迭代模型、吸引更多车企合作——车队规模已经成为了最深的护城河。
而且,世界模型的影响范围不局限于交通,而是整个“现实产业”。要知道,此前人们以为物理AI的第一批应用可能是人形机器人,但现实中最先普及的可能是汽车。汽车本身就是移动机器人,每天产生海量真实数据,又有明确的安全指标。不过在场景拓展上,Momenta也有自己的布局:比如在乘用车L2++、Robotaxi、Robovan、Robotruck等四个场景上,使用同一套All-in-One平台,实现数据与技术复用。
首先是商业模式上,他们提出将同一世界模型应用于多个场景,降本增效。而根据行业趋势判断,预计到2030年,智能驾驶及无人运输相关市场规模将超过5000亿美元。所以说,大语言模型改变的是“信息世界”,而世界模型瞄准的是“现实世界”。对于普通人来说,这意味着未来很多传统体力或操作型工作,可能会逐渐被“会理解物理世界的AI系统”替代或重构。