当前位置：首页>自动驾驶>自动驾驶最大短板被小米攻克?不靠“死记硬背”,终于学会“预判未来”

自动驾驶最大短板被小米攻克?不靠“死记硬背”,终于学会“预判未来”

2026-06-21 13:51:14

很多人误以为，自动驾驶最难的技术，是让汽车看清路况、识别车辆和行人。但行内人都清楚一个真相：自动驾驶的核心难题，从来不是“看清世界”，而是“预判未来、掌控后果”。

目前市面上绝大多数自动驾驶系统，本质上都是一个高级反射机器。

它的工作逻辑很简单：摄像头拍到路况画面，对照后台海量训练数据，机械输出打方向、加减速的指令。整个过程没有思考、没有推演，更不会预判“我这么做，接下来会发生什么”。

这套“看图做事”的模式，应付日常通勤、平直路况绰绰有余。可一旦遇到突发状况：路口车辆加塞、行人横穿马路、复杂多路交叉口、极端天气路况，这套系统就很容易“大脑宕机”，出现误判、急刹、避让失误等安全隐患。

简单说，现在的自动驾驶只会“照本宣科”，不会“随机应变”，更不会“提前预判”。

而小米最新推出的 Discrete-WAM 全新自动驾驶框架，彻底推翻了这套传统逻辑。它的核心突破只有一句话：让汽车像老司机一样，主动脑补未来，把当下决策和未来后果绑定思考，从“机械反射”升级为“主动思考驾驶”。

今天我们用普通人能听懂的话，深度拆解这套颠覆性技术，看懂自动驾驶的下一个时代。

一、传统自动驾驶的致命盲区：只会背答案，不会懂原理

真正的老司机开车，从来不是看一眼路况再动方向。绿灯亮起的瞬间，我们的大脑已经完成了一轮极速推演：对面车辆会不会抢黄灯？侧边行人会不会突然冲出？我现在加速，3秒、5秒后车辆会处在什么位置？是否存在碰撞风险？

预判未来、推演因果，才是安全驾驶的核心能力，也是目前所有主流自动驾驶系统最欠缺的能力。

当下主流的自动驾驶方案主要分两类，看似成熟，实则都有无法弥补的短板。

第一类是市面最常见的端到端自动驾驶系统。它的本质是统计记忆，而非理解思考。系统看过百万级路况数据，记住了“这种画面对应这种操作”，就像学生死记硬背题库答案。遇到常见场景稳稳当当，可一旦碰到从未见过的特殊路况，立刻手足无措，失误率大幅飙升。

第二类是进阶的“世界模型”系统，主打预测未来路况画面。它能模拟“我加速左转，接下来两秒路况会变成什么样”，勉强摸到了因果推演的门槛。但它的致命问题是：所有信息都混杂在抽象的数学空间里，无法精准区分车道、车辆、行人信息，更没办法思考“如果我换一种操作，结果会不一样吗”。

除此之外，所有传统系统都有一个共性bug：预测未来、做出决策是两个割裂的模块。

就像一个团队，有人专门预判风险，有人专门制定方案，两者互不沟通、各自为战。预报员预判了雨天，策划员却依旧安排户外行程，决策和预判完全脱节。这也是为什么很多自动驾驶，明明预判到了风险，却依旧做出错误操作的核心原因。

小米Discrete-WAM的核心革新，就是把两个割裂的模块合二为一，让一套“大脑”同时负责预判未来、制定决策，做到思考和行动高度统一。

二、小米的核心创新：把画面和动作，翻译成同一种语言

想要让系统同步理解路况和驾驶动作，首先要解决一个核心问题：路况画面是视觉信息，驾驶操作是动作信息，两种不同维度的信息，如何让AI同步解读、联动思考？

小米团队给出的解法堪称精妙：将视觉画面、驾驶动作全部转化为统一的离散符号。通俗来说，就是把所有复杂信息，翻译成同一套“通用代码”，让AI可以统一处理、联动推演。

在视觉处理上，团队借助VQ-VAE图像压缩技术，把摄像头拍摄的完整画面，拆解为16×16的小块单元，每一个小块对应一个专属编号，总计16384个图像符号。

这就好比把一幅复杂的画作，拆解成一个个标准化的乐高积木，既大幅压缩了冗余数据，又完整保留了车道、车辆、红绿灯等核心场景语义，让AI精准看懂路况核心信息。

在驾驶动作处理上，小米设计了一套专属的加速度编码方案。所有转弯、加速、刹车的驾驶轨迹，都会被拟合成平滑曲线，拆解为横向转向、纵向加减速两大维度数据，再映射为3600种标准化动作原型。

更细节的亮点是，小米摒弃了行业粗暴的“就近匹配”模式，采用软标签插值算法。每个驾驶动作都由周边四个基准动作加权组合而成，既能保留标准化符号的简洁高效，又能百分百还原精准的连续驾驶信号，彻底消除量化误差。

当画面和动作都变成统一的符号语言后，依托类似ChatGPT的Transformer大模型架构，AI就能像读句子一样，同步解读路况和动作，实现真正的一体化思考。

三、三重学习模式：从看懂画面，到学会主动思考

统一符号体系搭建完成后，Discrete-WAM通过三种差异化学习任务，训练出一个会推演、会决策、会验证的智能驾驶模型，三套任务共用一套核心参数，各司其职、互补增效。

1. 世界建模：看懂动作与结果的因果关系

这个任务的核心是让AI摸清“操作决定结果”的底层逻辑。系统接收当前路况和预设的后续驾驶动作，精准推演未来几秒的路况画面变化。简单来说，就是让AI明白：踩油门会拉近与前车距离、打左方向会驶入左侧车道，每一个操作对应的场景变化，都能精准预判。

2. 策略建模：分层决策，告别混乱失误

这是小米解决自动驾驶决策混乱的关键设计，分为高层意图决策和底层动作执行两层。

高层决策负责定方向，依托400种标准化驾驶原型，快速确定核心意图：是直行减速、左转变道，还是靠边匀速行驶。底层动作只需要根据既定意图，输出平稳、精准的加减速和转向细节。

这种分层设计彻底解决了传统模型的痛点：不用同时纠结“做什么选择、怎么精准执行”，先定大方向，再细化小动作，决策精度和稳定性大幅提升。

3. 联合建模：动作与预判双向印证

这是最接近人类驾驶的核心能力。系统会将“动作-画面”交替排列，形成连续推演序列，一边规划下一步驾驶动作，一边同步预判动作带来的路况变化。

简单讲，就是AI在心里同步上演两套剧本：我要怎么开、这么开后果是什么，两套剧本相互约束、相互验证，从根源避免盲目决策。

四、为什么一定要做“高层决策”？避免致命决策失误

很多人不理解，明明可以直接输出驾驶动作，为什么小米要多增加一层高层决策？其实这是规避自动驾驶致命bug的关键设计。

以十字路口场景为例，车辆需要同时判断转向、车速、车距、避让规则，决策维度极其复杂。如果让模型直接输出几秒内的连续动作，左转、右转、直行的轨迹逻辑完全不同，模型很容易陷入纠结，最终输出一个折中“平均轨迹”。

这种看似中立的结果，往往是灾难性的：既不贴合左转轨迹，也不匹配直行路线，极易出现压线、驶出路基、碰撞障碍物等问题。

而高层决策相当于先定赛道，再跑细节。先确定“我要左转”这个核心意图，再细化转向角度、行驶速度等细节，瞬间缩小决策范围，降低模型推演难度，彻底规避多场景决策冲突。

依托信息论验证，高层决策能大幅降低连续驾驶动作的逻辑冲突，有效减少系统生成误差，为安全驾驶提供扎实的理论支撑。

五、离散扩散算法：迭代优化，告别“一步错步步错”

传统AI生成内容、规划轨迹，大多是从前往后依次输出，就像逐字写作文。一旦前期出现错误，后续内容只能跟着出错，根本无法回溯修正，而且效率极低。

小米Discrete-WAM搭载的离散扩散机制，完全换了一种思路，更像填字谜。

初始阶段，系统会用随机符号填充所有待规划的轨迹位置，再结合全局路况和决策逻辑，多轮迭代更新所有位置的内容。每一轮迭代，都会优化不合理的轨迹，保留精准的预判和动作，让整体方案越来越自洽、越来越安全。

为了兼顾精度和效率，团队还设计了多种更新策略，最终验证出置信度优选策略效果最佳：已经精准确定的轨迹位置直接保留，只优化不确定性高、预判模糊的位置。

这种有的放矢的迭代模式，不仅避免了优质轨迹被反复打乱，还大幅节省算力、降低延迟。而且所有优化步骤支持并行处理，响应速度远超传统逐次生成模式，完美适配车载实时驾驶需求。

六、强化学习微调：从模仿人类，到超越人类

再好的模型，只靠学习人类驾驶数据，也会遇到天花板。人类驾驶数据大多是常规场景，极端雨雪天气、突发险情、罕见路况的数据少之又少，单纯模仿永远无法应对所有突发情况。

为了突破这个瓶颈，小米在模型预训练完成后，加入了GRPO分组强化学习微调。

通俗来说，预训练让汽车学会了驾校标准的规范驾驶，而强化学习阶段，就是让AI在海量模拟场景中不断试错、自主优化。系统会生成多条备选驾驶轨迹，通过EPDMS综合评分，从安全性、舒适性、路线合规性、行驶效率等多个维度，筛选最优决策，不断强化优质操作、淘汰危险操作。

这套微调机制，让模型摆脱了人类数据的局限，从“模仿高手”升级为“自我迭代、自我超越”的智能体，最终将综合评分从90.0分提升至90.4分，舒适性和安全性均实现显著优化。

七、硬核实测数据：多项性能跻身行业前列

小米团队在NAVSIM-v1、NAVSIM-v2两大权威自动驾驶测试平台中，对Discrete-WAM进行了全方位实测，成绩十分亮眼。

在主流的NAVSIM-v2测试中，模型以90.4的EPDMS综合评分位居行业第一梯队，相比同类世界模型系统，最高领先6.2个百分点，全方位碾压传统自动驾驶方案。

在画面、视频生成精度上，Discrete-WAM的FID、FVD指标全面优于Vista、DrivingWorld等顶尖模型。哪怕只做4秒短时预判，精度也远超一众支持长时预判的竞品，证明其视觉理解、场景推演的精准度行业领先。

消融实验也精准验证了各模块的价值：高层分层决策、轻量化参数微调、强化学习后训练，每一项设计都实实在在提升了驾驶稳定性和安全性，没有无效冗余设计。

八、核心杀手锏：学会“反事实推理”，真正读懂风险

这款模型最让人惊喜的，不是跑分数据，而是反事实推理能力。简单说，它能主动假设“如果我做错了选择，会发生什么危险”。

团队专门设计了“惊异值实验”：让系统分别推演正常驾驶轨迹、偏离安全范围的错误轨迹。结果显示，当驾驶动作小幅偏离、依旧安全时，模型惊异值极低；当动作大幅偏移、即将压线、碰撞时，惊异值会急剧飙升。

这足以证明，Discrete-WAM不是在单纯匹配画面像素，而是真正理解了动作与安全的因果逻辑。它能精准识别危险操作、预判事故风险，未来可直接将这套风险感知能力，用于紧急避险、主动风控，大幅提升自动驾驶安全上限。

九、有趣的细节：AI开车也会“看天空”

在分析模型注意力分布时，团队发现了一个很有意思的现象：AI做驾驶决策时，除了重点关注车道、车辆、红绿灯等核心区域，对天空区域也有着极高的注意力权重。

后续实验验证了背后逻辑：天空场景纹理简单、状态稳定，被AI当作了全局参考锚点。通过天空画面，AI可以快速感知天气、光线、视野开阔度等全局信息，辅助优化整体驾驶决策。

这也从侧面证明，这套模型已经具备了自主场景理解能力，不是机械识别像素，而是主动挖掘场景中的有效信息，适配驾驶需求。

写在最后：自动驾驶，终于迎来“思维革命”

长久以来，自动驾驶行业都陷入了一个误区：一味堆砌传感器、提升识别精度，却忽略了核心的决策思维升级。

而小米Discrete-WAM的最大意义，是重构了自动驾驶的底层思维逻辑。

它不再是“看见什么就做什么”的机械工具，而是像人类老司机一样，会预判、会思考、会复盘、会规避风险。能预判未来路况，能推演决策后果，能对比备选方案，真正实现了“三思而后行”的智能驾驶。

诚然，从实验室前沿研究到大规模量产落地，还有大量工程化问题需要攻克。但毋庸置疑，小米这套全新框架，打破了传统自动驾驶的技术天花板，为行业指明了全新的突破方向。

未来的自动驾驶，拼的不再是“看得清”，而是“想得明白、预判得精准”。而小米，已经提前站上了新赛道的起点。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

自动驾驶最大短板被小米攻克?不靠“死记硬背”,终于学会“预判未来”

一、传统自动驾驶的致命盲区：只会背答案，不会懂原理

二、小米的核心创新：把画面和动作，翻译成同一种语言

三、三重学习模式：从看懂画面，到学会主动思考

1. 世界建模：看懂动作与结果的因果关系

2. 策略建模：分层决策，告别混乱失误

3. 联合建模：动作与预判双向印证

四、为什么一定要做“高层决策”？避免致命决策失误

五、离散扩散算法：迭代优化，告别“一步错步步错”

六、强化学习微调：从模仿人类，到超越人类

七、硬核实测数据：多项性能跻身行业前列

八、核心杀手锏：学会“反事实推理”，真正读懂风险

九、有趣的细节：AI开车也会“看天空”

写在最后：自动驾驶，终于迎来“思维革命”

最新文章

热门文章

随机文章

自动驾驶最大短板被小米攻克?不靠“死记硬背”,终于学会“预判未来”

一、传统自动驾驶的致命盲区：只会背答案，不会懂原理

二、小米的核心创新：把画面和动作，翻译成同一种语言

三、三重学习模式：从看懂画面，到学会主动思考

1. 世界建模：看懂动作与结果的因果关系

2. 策略建模：分层决策，告别混乱失误

3. 联合建模：动作与预判双向印证

四、为什么一定要做“高层决策”？避免致命决策失误

五、离散扩散算法：迭代优化，告别“一步错步步错”

六、强化学习微调：从模仿人类，到超越人类

七、硬核实测数据：多项性能跻身行业前列

八、核心杀手锏：学会“反事实推理”，真正读懂风险

九、有趣的细节：AI开车也会“看天空”

写在最后：自动驾驶，终于迎来“思维革命”

Wayve联手Uber在伦敦开放自动驾驶候补名单

SUV卖得火,家里却天天为停车发愁,这车真适合你吗?

最新文章

热门文章

随机文章