删掉语言层,小鹏正试着让自动驾驶学会老司机的车感
前两天赶飞机,坐了一位据说开了十年出租的师傅的车。全程他没有急刹过一次。绿灯还剩三秒的时候他不会冲,但绿灯亮起的一瞬间他一定是第一个起步的。在高架上,他能在三条车道之间找到一条最快但又不招人烦的穿行路线。我问他怎么看出来的,他说:看是看不出来的,全靠"车感"。他的大脑在看到前车的车身稍有偏移的瞬间,已经想象出了接下来几秒的画面——那辆车准备减速,行车方向靠右,司机八成在看右边的后视镜,准备找个机会变到右转道去,那前面的车道很快将空出来,与其着急变道,不如也减速等几秒。这个推理听起来很复杂,但他的身体在意识到之前就已经松开了油门。车感不是知识。你没法看一本书学会它,也没法把它写成行车手册上的规则。它是一种在你开了足够多的公里数之后自然长出来的直觉——大脑在看到路况的一瞬间,自动预测下一刻会发生什么,然后身体在你还来不及想的时候就做出了反应。最近小鹏汽车发了一系列技术报告,从X-World世界模型到X-Cache加速器到第二代VLA。合在一起看,它们在做同一件事:让AI拥有老司机一样的车感。年初我们聊杨立昆离开Meta后一群学者拼出的世界模型路线图时,说过一个核心观点:世界模型的本质,不是让AI识别图片里有什么,而是让它理解这个场景接下来会怎么变。小鹏的X-World就是把这句话变成了一个跑在车里的系统。它的工作方式很直接。输入是车上7个摄像头的历史画面,加上你打算执行的动作——比如加速、右转变道。输出是几秒后,这7个摄像头分别会看到什么画面。就像一个经验丰富的司机在前车刹车灯还没亮的时候就知道要收油——X-World做的事情在本质上是一样的:根据当前看到的一切,推演出接下来最可能发生的事。只不过它不靠直觉,靠的是基于视频扩散模型训练的神经网络。它的底层用了高压缩比的3D因果自编码器来降低计算开销,自注意机制要同时处理7个摄像头视角之间的时空关系,从而保证生成的未来画面里,路牌不会飘、前车比例不变形、阴影的角度是合理的。简单地说这台车,学会了在数字世界里攒着它的驾驶经验,它没出过门,但已经在模拟器里开了几千万公里。第一个是评测:传统的自动驾驶测试靠路上跑,但很难碰到极端情况——你开一百个小时可能遇不到一次鬼探头。X-World可以定向生成这些场景:行人突然从公交车后面冲出来,三轮车违章掉头,雨天路面积水导致摄像头反光。然后看AI在这些场景里会不会犯错。小鹏的仿真场景已经从一年前的三万个涨到了五十多万,每天在数字世界里跑的等效里程相当于实车三千万公里。第二个是训练:AI在哪个场景弱,就专门给它生哪个场景的数据。拥堵路况下变道犹豫?造一万个变道场景让它练习。路口横穿行人反应不够快?专门生成各种角度、各种速度的横穿画面。这就像驾校教练知道你对倒库没信心,专门在桩上多练几把——只是这个教练是模拟器,它自己就能完成从发现问题到生成训练数据的整条链。第三个是进化:最关键的一点:这些生成的数据不需要人工标注。传统自动驾驶训练需要大量人工标注数据——每张图里哪里是车道线、哪辆是前车、行人在什么位置——费钱又费时。X-World不是这种思路。它不是分析历史数据,而是生成未来数据;它自己生成画面,自己验证结果,自己迭代优化。类似当年AlphaGo自己跟自己下棋提升棋力,只不过这次下的不是围棋,是上路。到这里一切听起来都很美。但有一个你在开车时完全感觉不到的问题,对X-World来说却是致命的。你做车感判断的时间尺度是毫秒级的——看到了,脚就动了。你看到远处右边停了辆车,大脑根本不用把“前面那个骑电动车的大叔可能会往左偏”翻译成文字,它直接跳过了一切中间环节,直接控制你的手轻轻向左打了点方向。但X-World要老老实实地从7个摄像头的输入数据生成出未来的多视角视频。要去噪、要确保跨视角的时空一致性、要保证动作跟随的精确度。每一步都要算力。自动驾驶对速度有硬性要求。你不可能让车停下来等AI想象完再开。整条VLA链路必须在极短的时间内完成——这个时间门槛决定了生成的质量能做多高、决策能想多远。这就是小鹏五月初发的X-Cache要解决的问题。它的定位很清晰:做一个“世界模型加速器”。它不改变模型本身,不需要重新训练,直接插到X-World上就能把推理速度提升到原来的2.7倍。因为世界模型生成画面的流程里最慢的步骤是“去噪”,也就是把图像的逐步清晰化过程。X-Cache在这步做了针对性优化,毕竟开车不需要把前后的景色看得清清楚楚,能看出后面有台车那就足够了,所以系统也不需要等所有噪声都消除干净就可以继续往下走,这样就省下了大量的时间。“即插即用”这个设计也很重要。这意味着一辆车已经卖出去了,可以通过OTA软件更新给它装上这个加速器,不需要回厂、不用换硬件。用户的体验变化就是:以前AI遇到复杂路况就要求人工接管,现在能从从容容地像老司机一样开过去。顺着这个思路,还有一个更深层的突破藏在第二代VLA里面。传统VLA的管线是这样的:车上的摄像头拍到画面,然后AI用语言模型把画面翻译成文字“前方30米红灯,左侧有行人等待”,最后系统根据这段文字描述来决定踩油门还是刹车。中间夹着这个翻译步骤在VLA早期帮助很大,因为LLM积累了巨量的训练数据和工程经验,把视觉问题转化成语言问题可以直接使用现成的大模型来完成复杂的判断。但到了开上路时,它就变成了负担。因为翻译需要时间,哪怕只花几十毫秒,在时速六十公里的车上就是一米的距离,多一米少一米,很可能结果完全不一样。更关键的是,把画面翻译成文字的过程中信息在丢失。前车的角度、速度的微妙变化、路面纹理的细微差异——这些决定一个老司机判断是否准确的关键信息,在语言的压缩过程中几乎必然被牺牲。所以小鹏第二代VLA选择了最简单也最大胆的方案:直接把中间的翻译过程删掉,车看到画面,直接到做动作。没有翻译,没有中间环节。他们在今年的科技日上把这个第二代VLA叫做“量产物理世界大模型”。这个模型的“母语”不是中文或英文,而是物理规律——重力、惯性、速度、摩擦力……。本质上,第二代VLA在做的依然是一个序列预测问题——“看到了什么,接下来做什么”。这和大语言模型“看到了上文,下一个字是什么”是同一个数学框架,区别只在于,一个预测token,一个预测方向盘和油门的角度。我们之前聊过“把预测下一个token换成预测下一个动作”的趋势,小鹏的VLA 2.0就是这个趋势在自动驾驶领域的一次落地。数据规模也从侧面印证了这个思路:训练数据接近一亿个视频片段,相当于人类驾驶员开六万五千年才能遇到的全部场景。而且不需要人工标注,车自己学会了从画面到操作的映射,没有人写过一行规则。不过话说回来,AI现在的“车感”和真正的老司机还有关键差距。因为真正的车感包含的不只是对常见模式的反应,更是在完全没见过的场景里做出合理判断的能力。一个从没在雪地上开过车的南方司机,第一次上大雪结冰的高速公路时,他会本能地放慢速度、拉开车距、方向盘打得比平时更轻——因为他理解雪地是滑的,制动距离会更长,急打方向容易失控。这不是任何训练样本告诉他的,是他对“摩擦力”这个物理规律的泛化理解。这些AI目前还做不到。它在模拟器里见过的场景再多,也只限于见过的场景。它没有人类那种从生活经验中提炼出的、对底层物理规律的理解。但方向是对的。从识别到预测到直觉,这条路每往前走一步,自动驾驶就离老司机的车感就更近一步。