芝能科技出品
在中国的车企和科技企业大量投入下,自动驾驶走到现在,感知不再是瓶颈,模仿学习也逐渐触顶,现在更多的还是更好的策略,解决"看清了,该怎么办"。
从看到到做决定,只有几十毫秒。小米这次发布的 Xiaomi OneVL,就是在回答这个问题,当自动驾驶进入"需要推理"的阶段,模型该怎么既快又准。
如果把自动驾驶模型发展简单分个阶:
◎ 第一阶段是感知驱动,核心是检测和分割,把世界拆成"车、路、人";
◎ 第二阶段是模仿学习,模型直接学人类怎么开;
◎ 第三阶段,才真正涉及认知和推理,小米把这套思路叫XLA。
XLA的关键变化是,是从"像人一样开",要解决“为什么这样开"的问题。
前车减速、侧方来车、道路收窄是决策链条里的变量。但是推理一加进来,系统延迟直接飙升。
行业里常见的解法是显式思维链(CoT)。模型先把"思考过程"一步步生成出来,再给答案。这在语言任务里挺好用,但搁驾驶场景,基本等于没用,逐token生成的延迟,在车规系统里是致命的。
另一条路叫Latent CoT:把推理过程压进模型的隐空间,让模型"心里想",而不是"说出来再想"。
但问题在于,过去的Latent CoT压缩的是语言。而开车,本来就不是语言问题。
OneVL最有价值的地方是重新定义了推理对象。
◎ 传统Latent CoT的思路是:把"我为什么这么做"压缩成一段隐变量。
◎ OneVL的思路是:真正需要压缩的是未来。
自动驾驶决策是对接下来0.5秒、1秒场景会怎么演化的判断:
◎ 那辆车会不会并线?
◎ 行人会不会进道路?
◎ 继续加速会不会撞上?
驾驶决策依赖的是一个隐含的"世界模型"。OneVL的关键一步,就是把推理的载体,从语言转向视觉时空结构,也就是未来场景本身。
OneVL在结构上做了三件挺克制、但很关键的改变。
● 双模态latent token:让"想"和"理解"分开
模型内部引入两类隐变量:
◎ 视觉latent token:负责编码场景里的物理关系和时序变化
◎ 语言latent token:负责表达驾驶意图和语义逻辑
相当于把"世界怎么变"和"我要做什么"分开建模。模型不再用语言强行描述物理世界,而是在视觉空间里直接推理。
好处是,信息不会在语言压缩过程中丢失。过去Latent CoT的问题,本质就是把高维时空信息硬塞进语言结构,信息损耗不可避免。
● 双解码器监督:训练时"想清楚",推理时"直接给答案"
OneVL引入了两个解码器,但只存在于训练阶段:
◎ 视觉解码器:预测未来0.5s / 1s的场景
◎ 语言解码器:重建人类可读的推理过程
这一步很关键。等于是给latent token加了两种约束:
◎模型必须学会正确预测未来世界,否则视觉监督会惩罚它;
◎ 另它还要能解释自己的决策逻辑,否则语言监督也会拉回来。
但在推理阶段,这两个解码器全部移除。
模型训练时被逼"想清楚",但实际跑的时候直接给答案,典型的"训练-推理解耦"。
● 一步式推理:彻底消灭自回归
OneVL最激进的设计:推理阶段不做任何逐token生成,所有latent token一次性预填充,模型并行计算,直接输出轨迹或决策。
延迟理论上可以接近"只输出答案"的模型,而不是传统CoT那种需要逐步生成的结构。
相比显式CoT,速度最高提升2.3倍,精度还更高。说白了,这不是优化,是换赛道。
OneVL容易被忽略的一点,是它的训练流程,分三个阶段:
◎ 先单独训练视觉解码器,让模型学会预测未来
◎ 再训练主模型,学习基本的轨迹和表示
◎ 最后联合微调,把三者对齐
听着挺麻烦,但结果说话:跳过这步,性能直接掉20多分。轨迹、语言、视觉一起练会打架。如果不分阶段处理,模型很容易陷入梯度干扰,OneVL是一套训练方法的工程化解法。
从指标上看,OneVL在多个基准上已经超过显式CoT,这在过去挺难想象的,同时解决了三个长期问题:
◎ 第一,CoT太慢。 自回归推理在车规系统里几乎不可接受,而OneVL把延迟压到了0.24秒量级,已经进入可部署区间。
◎ 第二,隐式推理不够强。 过去Latent CoT精度不如显式CoT,本质是信息压缩方式不对。OneVL通过引入世界模型监督弥补了这一点。
◎ 第三,可解释性缺失。 端到端模型一直被吐槽"黑盒"。OneVL通过语言+视觉双解释,把决策过程重新暴露出来。
这三点,对应的是自动驾驶落地的三个核心门槛:性能、实时性、可验证性。
这套方法,并不局限于自动驾驶。机器人、具身智能,甚至复杂决策系统,只要涉及"未来状态预测+实时决策",都可以套用。
OneVL已经把延迟压到了4Hz级别,在很多辅助驾驶场景里是可以接受的。
但距离真正大规模上车,还有几个现实问题:
◎ 算力成本是否可控;
◎ 长尾场景下的鲁棒性;
◎ 以及最关键的,数据规模是否足以支撑这种推理能力。
过去行业在"要不要推理"之间摇摆。OneVL的答案是,推理必须要有,但玩法得变。
OneVL真正做的事情是让模型在有限时间里,用对的方式思考,小米的自动驾驶能后来居上吗?