很多人误以为,自动驾驶最难的技术,是让汽车看清路况、识别车辆和行人。但行内人都清楚一个真相:自动驾驶的核心难题,从来不是“看清世界”,而是“预判未来、掌控后果”。
目前市面上绝大多数自动驾驶系统,本质上都是一个高级反射机器。
它的工作逻辑很简单:摄像头拍到路况画面,对照后台海量训练数据,机械输出打方向、加减速的指令。整个过程没有思考、没有推演,更不会预判“我这么做,接下来会发生什么”。
这套“看图做事”的模式,应付日常通勤、平直路况绰绰有余。可一旦遇到突发状况:路口车辆加塞、行人横穿马路、复杂多路交叉口、极端天气路况,这套系统就很容易“大脑宕机”,出现误判、急刹、避让失误等安全隐患。
简单说,现在的自动驾驶只会“照本宣科”,不会“随机应变”,更不会“提前预判”。
而小米最新推出的 Discrete-WAM 全新自动驾驶框架,彻底推翻了这套传统逻辑。它的核心突破只有一句话:让汽车像老司机一样,主动脑补未来,把当下决策和未来后果绑定思考,从“机械反射”升级为“主动思考驾驶”。
今天我们用普通人能听懂的话,深度拆解这套颠覆性技术,看懂自动驾驶的下一个时代。
一、传统自动驾驶的致命盲区:只会背答案,不会懂原理
真正的老司机开车,从来不是看一眼路况再动方向。绿灯亮起的瞬间,我们的大脑已经完成了一轮极速推演:对面车辆会不会抢黄灯?侧边行人会不会突然冲出?我现在加速,3秒、5秒后车辆会处在什么位置?是否存在碰撞风险?
预判未来、推演因果,才是安全驾驶的核心能力,也是目前所有主流自动驾驶系统最欠缺的能力。
当下主流的自动驾驶方案主要分两类,看似成熟,实则都有无法弥补的短板。
第一类是市面最常见的端到端自动驾驶系统。它的本质是统计记忆,而非理解思考。系统看过百万级路况数据,记住了“这种画面对应这种操作”,就像学生死记硬背题库答案。遇到常见场景稳稳当当,可一旦碰到从未见过的特殊路况,立刻手足无措,失误率大幅飙升。
第二类是进阶的“世界模型”系统,主打预测未来路况画面。它能模拟“我加速左转,接下来两秒路况会变成什么样”,勉强摸到了因果推演的门槛。但它的致命问题是:所有信息都混杂在抽象的数学空间里,无法精准区分车道、车辆、行人信息,更没办法思考“如果我换一种操作,结果会不一样吗”。
除此之外,所有传统系统都有一个共性bug:预测未来、做出决策是两个割裂的模块。
就像一个团队,有人专门预判风险,有人专门制定方案,两者互不沟通、各自为战。预报员预判了雨天,策划员却依旧安排户外行程,决策和预判完全脱节。这也是为什么很多自动驾驶,明明预判到了风险,却依旧做出错误操作的核心原因。
小米Discrete-WAM的核心革新,就是把两个割裂的模块合二为一,让一套“大脑”同时负责预判未来、制定决策,做到思考和行动高度统一。
二、小米的核心创新:把画面和动作,翻译成同一种语言
想要让系统同步理解路况和驾驶动作,首先要解决一个核心问题:路况画面是视觉信息,驾驶操作是动作信息,两种不同维度的信息,如何让AI同步解读、联动思考?
小米团队给出的解法堪称精妙:将视觉画面、驾驶动作全部转化为统一的离散符号。通俗来说,就是把所有复杂信息,翻译成同一套“通用代码”,让AI可以统一处理、联动推演。
在视觉处理上,团队借助VQ-VAE图像压缩技术,把摄像头拍摄的完整画面,拆解为16×16的小块单元,每一个小块对应一个专属编号,总计16384个图像符号。
这就好比把一幅复杂的画作,拆解成一个个标准化的乐高积木,既大幅压缩了冗余数据,又完整保留了车道、车辆、红绿灯等核心场景语义,让AI精准看懂路况核心信息。
在驾驶动作处理上,小米设计了一套专属的加速度编码方案。所有转弯、加速、刹车的驾驶轨迹,都会被拟合成平滑曲线,拆解为横向转向、纵向加减速两大维度数据,再映射为3600种标准化动作原型。
更细节的亮点是,小米摒弃了行业粗暴的“就近匹配”模式,采用软标签插值算法。每个驾驶动作都由周边四个基准动作加权组合而成,既能保留标准化符号的简洁高效,又能百分百还原精准的连续驾驶信号,彻底消除量化误差。
当画面和动作都变成统一的符号语言后,依托类似ChatGPT的Transformer大模型架构,AI就能像读句子一样,同步解读路况和动作,实现真正的一体化思考。
三、三重学习模式:从看懂画面,到学会主动思考
统一符号体系搭建完成后,Discrete-WAM通过三种差异化学习任务,训练出一个会推演、会决策、会验证的智能驾驶模型,三套任务共用一套核心参数,各司其职、互补增效。
1. 世界建模:看懂动作与结果的因果关系
这个任务的核心是让AI摸清“操作决定结果”的底层逻辑。系统接收当前路况和预设的后续驾驶动作,精准推演未来几秒的路况画面变化。简单来说,就是让AI明白:踩油门会拉近与前车距离、打左方向会驶入左侧车道,每一个操作对应的场景变化,都能精准预判。
2. 策略建模:分层决策,告别混乱失误
这是小米解决自动驾驶决策混乱的关键设计,分为高层意图决策和底层动作执行两层。
高层决策负责定方向,依托400种标准化驾驶原型,快速确定核心意图:是直行减速、左转变道,还是靠边匀速行驶。底层动作只需要根据既定意图,输出平稳、精准的加减速和转向细节。
这种分层设计彻底解决了传统模型的痛点:不用同时纠结“做什么选择、怎么精准执行”,先定大方向,再细化小动作,决策精度和稳定性大幅提升。
3. 联合建模:动作与预判双向印证
这是最接近人类驾驶的核心能力。系统会将“动作-画面”交替排列,形成连续推演序列,一边规划下一步驾驶动作,一边同步预判动作带来的路况变化。
简单讲,就是AI在心里同步上演两套剧本:我要怎么开、这么开后果是什么,两套剧本相互约束、相互验证,从根源避免盲目决策。
四、为什么一定要做“高层决策”?避免致命决策失误
很多人不理解,明明可以直接输出驾驶动作,为什么小米要多增加一层高层决策?其实这是规避自动驾驶致命bug的关键设计。
以十字路口场景为例,车辆需要同时判断转向、车速、车距、避让规则,决策维度极其复杂。如果让模型直接输出几秒内的连续动作,左转、右转、直行的轨迹逻辑完全不同,模型很容易陷入纠结,最终输出一个折中“平均轨迹”。
这种看似中立的结果,往往是灾难性的:既不贴合左转轨迹,也不匹配直行路线,极易出现压线、驶出路基、碰撞障碍物等问题。
而高层决策相当于先定赛道,再跑细节。先确定“我要左转”这个核心意图,再细化转向角度、行驶速度等细节,瞬间缩小决策范围,降低模型推演难度,彻底规避多场景决策冲突。
依托信息论验证,高层决策能大幅降低连续驾驶动作的逻辑冲突,有效减少系统生成误差,为安全驾驶提供扎实的理论支撑。
五、离散扩散算法:迭代优化,告别“一步错步步错”
传统AI生成内容、规划轨迹,大多是从前往后依次输出,就像逐字写作文。一旦前期出现错误,后续内容只能跟着出错,根本无法回溯修正,而且效率极低。
小米Discrete-WAM搭载的离散扩散机制,完全换了一种思路,更像填字谜。
初始阶段,系统会用随机符号填充所有待规划的轨迹位置,再结合全局路况和决策逻辑,多轮迭代更新所有位置的内容。每一轮迭代,都会优化不合理的轨迹,保留精准的预判和动作,让整体方案越来越自洽、越来越安全。
为了兼顾精度和效率,团队还设计了多种更新策略,最终验证出置信度优选策略效果最佳:已经精准确定的轨迹位置直接保留,只优化不确定性高、预判模糊的位置。
这种有的放矢的迭代模式,不仅避免了优质轨迹被反复打乱,还大幅节省算力、降低延迟。而且所有优化步骤支持并行处理,响应速度远超传统逐次生成模式,完美适配车载实时驾驶需求。
六、强化学习微调:从模仿人类,到超越人类
再好的模型,只靠学习人类驾驶数据,也会遇到天花板。人类驾驶数据大多是常规场景,极端雨雪天气、突发险情、罕见路况的数据少之又少,单纯模仿永远无法应对所有突发情况。
为了突破这个瓶颈,小米在模型预训练完成后,加入了GRPO分组强化学习微调。
通俗来说,预训练让汽车学会了驾校标准的规范驾驶,而强化学习阶段,就是让AI在海量模拟场景中不断试错、自主优化。系统会生成多条备选驾驶轨迹,通过EPDMS综合评分,从安全性、舒适性、路线合规性、行驶效率等多个维度,筛选最优决策,不断强化优质操作、淘汰危险操作。
这套微调机制,让模型摆脱了人类数据的局限,从“模仿高手”升级为“自我迭代、自我超越”的智能体,最终将综合评分从90.0分提升至90.4分,舒适性和安全性均实现显著优化。
七、硬核实测数据:多项性能跻身行业前列
小米团队在NAVSIM-v1、NAVSIM-v2两大权威自动驾驶测试平台中,对Discrete-WAM进行了全方位实测,成绩十分亮眼。
在主流的NAVSIM-v2测试中,模型以90.4的EPDMS综合评分位居行业第一梯队,相比同类世界模型系统,最高领先6.2个百分点,全方位碾压传统自动驾驶方案。
在画面、视频生成精度上,Discrete-WAM的FID、FVD指标全面优于Vista、DrivingWorld等顶尖模型。哪怕只做4秒短时预判,精度也远超一众支持长时预判的竞品,证明其视觉理解、场景推演的精准度行业领先。
消融实验也精准验证了各模块的价值:高层分层决策、轻量化参数微调、强化学习后训练,每一项设计都实实在在提升了驾驶稳定性和安全性,没有无效冗余设计。
八、核心杀手锏:学会“反事实推理”,真正读懂风险
这款模型最让人惊喜的,不是跑分数据,而是反事实推理能力。简单说,它能主动假设“如果我做错了选择,会发生什么危险”。
团队专门设计了“惊异值实验”:让系统分别推演正常驾驶轨迹、偏离安全范围的错误轨迹。结果显示,当驾驶动作小幅偏离、依旧安全时,模型惊异值极低;当动作大幅偏移、即将压线、碰撞时,惊异值会急剧飙升。
这足以证明,Discrete-WAM不是在单纯匹配画面像素,而是真正理解了动作与安全的因果逻辑。它能精准识别危险操作、预判事故风险,未来可直接将这套风险感知能力,用于紧急避险、主动风控,大幅提升自动驾驶安全上限。
九、有趣的细节:AI开车也会“看天空”
在分析模型注意力分布时,团队发现了一个很有意思的现象:AI做驾驶决策时,除了重点关注车道、车辆、红绿灯等核心区域,对天空区域也有着极高的注意力权重。
后续实验验证了背后逻辑:天空场景纹理简单、状态稳定,被AI当作了全局参考锚点。通过天空画面,AI可以快速感知天气、光线、视野开阔度等全局信息,辅助优化整体驾驶决策。
这也从侧面证明,这套模型已经具备了自主场景理解能力,不是机械识别像素,而是主动挖掘场景中的有效信息,适配驾驶需求。
写在最后:自动驾驶,终于迎来“思维革命”
长久以来,自动驾驶行业都陷入了一个误区:一味堆砌传感器、提升识别精度,却忽略了核心的决策思维升级。
而小米Discrete-WAM的最大意义,是重构了自动驾驶的底层思维逻辑。
它不再是“看见什么就做什么”的机械工具,而是像人类老司机一样,会预判、会思考、会复盘、会规避风险。能预判未来路况,能推演决策后果,能对比备选方案,真正实现了“三思而后行”的智能驾驶。
诚然,从实验室前沿研究到大规模量产落地,还有大量工程化问题需要攻克。但毋庸置疑,小米这套全新框架,打破了传统自动驾驶的技术天花板,为行业指明了全新的突破方向。
未来的自动驾驶,拼的不再是“看得清”,而是“想得明白、预判得精准”。而小米,已经提前站上了新赛道的起点。