当前位置：首页>自动驾驶>自动驾驶在未来三年会迎来大爆发

自动驾驶在未来三年会迎来大爆发

2026-04-29 12:01:42

“狼来了”

自动驾驶这件事，这十年一直有一种很强的“狼来了”气质。

大概从 2015 到 2016 年，这一轮热潮就已经开始了。Tesla 在 2016 年的《Master Plan, Part Deux》里就已经把自动驾驶放进了核心蓝图；也是在 2016 年，Google 的无人车项目正式独立成了 Waymo。十年过去，到 2026 年，Waymo 发布了自己的 Waymo World Model，国产新能源汽车的自动驾驶也让普通用户尝到了甜头，整个行业一直在往前走。只是它始终没有迎来大家当年想象中的那种“彻底落地、瞬间爆发”。

这也是很多人今天对自动驾驶感到困惑的地方：人类考个驾照看起来并不难，为什么机器反而这么多年都没搞定？这个问题的关键不在于“开车”到底有多难，而在于过去很长一段时间里，行业其实是在用一条不够对的路线解决它。

人类学会开车，看起来简单，不是因为驾驶这件事真的简单，而是因为人脑天然就是为这种任务准备的。你在路口看到一个站在人行道边上的人，会几乎本能地判断他会不会突然横穿；你看到前车轻轻点刹，会立刻感觉到前面可能有情况；你看到一辆电动车的车头角度，就会下意识预判它会不会硬挤进来。人是在凭空间直觉、常识、经验和对他人意图的模糊理解，做一个连续不断的判断过程。

但过去很多年，自动驾驶不是这么干的。它更像是把驾驶拆成很多零件：感知负责看见，预测负责猜别人要干嘛，规划负责想自己怎么走，控制负责把方向盘和刹车打出去。然后每一层再叠上规则、阈值、状态机和大量兜底逻辑。这套东西当然有价值，没有它，就不会有今天已经相当成熟的高速领航和自动泊车。但它的问题也很明显：它非常像一套能把系统从 0 分做到 60 分，却很难把系统从 60 分做到 95 分的方法。

因为真实道路根本不是一个有限状态机。

驾驶最麻烦的地方，从来不是某个单点问题特别难，而是无数中等复杂的问题会以意想不到的方式叠在一起。一个鬼探头行人，一辆斜插的电动车，一台突然借道避让的前车，一段临时施工改道，一片逆光，再加上一点雨夜视线不佳——这些东西单独拎出来都不算世界难题，但一旦叠在一起，复杂度就会急剧上升。规则树在这里的根本弱点就暴露出来了：它擅长处理“我已经见过、而且已经写过”的情况，却不擅长处理“虽然长得不一样，但本质上是一类风险”的情况。它可以枚举，但很难真正归纳。驾驶不是一堆割裂模块的问题，而是一个统一的时空决策问题。

Transformer 和强化学习

这也是为什么我越来越相信，Transformer 这类模型路线，第一次让自动驾驶看起来像是在往终局走。

因为驾驶天然就是一个时序问题、空间问题和多模态问题的叠加。车不是在看一张图，而是在持续接收前视、侧视、后视、环视摄像头的视频流，还要结合雷达、激光雷达、IMU、导航和自己的历史动作。它做决策也不是“看一帧打一把方向”，而是把过去几秒发生了什么、现在发生了什么、接下来大概率会发生什么，一起放进上下文里理解。Transformer 天生就擅长在长上下文里动态决定当前到底该关注哪些时间点、哪些目标、哪些视角。换句话说，它第一次让机器有机会像一个司机那样，持续理解周围这个三维世界，而不是靠一堆局部模块拼出一个“像开车”的东西。

但如果只是把规则树换成 Transformer，还是远远不够。因为那样做，本质上仍然可能只是让模型去学“平均司机在平均场景里的平均操作”。这能让它越来越像一个合格司机，但未必能让它在真正要命的长尾场景里变成高手。而自动驾驶真正难的地方，偏偏都在长尾里：低频、危险、组合复杂，但一旦出现就非常致命。

真正让我觉得事情开始变味的，是强化学习开始和这条模型路线接起来了。

我搜到一个叫 MindDrive 的项目。它对问题的描述很直接：现在很多自动驾驶的 VLA 路线主要还是依赖 imitation learning，但 imitation learning 天生会带来 distribution shift 和 causal confusion；他们做的事情，是把 online reinforcement learning 接进来，让模型不只是模仿历史驾驶，而是在闭环环境里通过 trial-and-error 自己优化决策。论文甚至直接说，据他们所知，这是第一次证明 online reinforcement learning 对自动驾驶 VLA 模型有效。

为什么这件事重要？因为它意味着，自动驾驶第一次开始更像 AlphaGo，而不是更像一个复杂的规则引擎。

AlphaGo 最震撼人的地方，从来不是“AI 学会了围棋规则”，而是它能在自我对弈里无限练习，靠试错和反馈把水平推到人类难以企及的高度。以前那套思路，更像是给机器背驾校题库；而强化学习这套思路，更像是让 AI 在数字道路上自己练车。它可以自己去犯错，自己去吃亏，自己去复盘那些现实里十年都遇不到几次、但偏偏最重要的危险场景。现实中的老司机，开一辈子也就积累那么多经验；但在足够真实的仿真环境里，AI 完全可以在很短时间里跑掉上亿公里等价经验。

强化学习和仿真系统

而这又把问题推到另一个关键点上：仿真必须先成熟。很高兴的是，业界真的在这个方向上在用力。

过去很多人提仿真，脑子里还是“画几个虚拟场景、做做 case”的印象。但现在业界最前沿的仿真，已经完全不是那个概念了。

我简单检索到了几个例子： Applied Intuition 在讲他们的 Neural Sim。它不是手工捏几个路口，而是把真实车队采回来的 drive logs 自动转成动态、照片级逼真的 3D 虚拟环境，然后做可扩展的闭环传感器仿真。2025 年他们发布这套系统时，强调的是把真实日志的规模和真实感，和虚拟测试的可控性、效率结合起来；到了 2025 年下半年，他们又进一步写到，Neural Sim 已经能把原始车队数据自动转换成 3D virtual test environments，用来大规模发现 edge cases、减少上路测试，并服务端到端和传统自动驾驶项目。

Waymo 则更进一步。它在 2026 年公开发布的 Waymo World Model，已经不是“日志回放增强版”，而是一个真正的生成式世界模型。Waymo 自己的说法很明确：Waymo Driver 已经跑了接近 2 亿英里的 fully autonomous miles，同时在虚拟世界里跑了 billions of miles；这个 World Model 可以从真实事件自然过渡到模型实时生成的相机和激光雷达世界，还能通过简单的语言提示、驾驶输入和场景布局去改造仿真内容，用来覆盖各种现实里几乎采不到的稀有事件。

这一步为什么关键？因为围棋之所以能让 AI 和 AI 下上亿盘棋，是因为棋盘是完整可模拟的。自动驾驶过去做不到这一点，是因为真实道路太贵、太危险、太稀疏，没法像围棋那样无限练。仿真一旦成熟，局面就变了：那些现实中最难采、最重要、最危险的经验，终于可以被重建、编辑、放大、批量生成、反复训练。到这个时候，自动驾驶才第一次不再像一个“不断补洞的工程项目”，而开始像一个真正会自我进化的 AI 系统。

车载推理卡

再往下推，逻辑就会自然落到车端算力上。

当你决定用大模型思路去解决自动驾驶时，参数量一旦上去，推理就不可能放在云端。驾驶不是聊天，不能把感知和决策发到云上等返回；它要求的是实时、持续、稳定，而且责任链必须闭合在车上。NVIDIA 现在官方对车载平台的描述，本身就把重点放在“处理自动驾驶所需的复杂实时工作负载”，同时把车端计算、闭环仿真和 Level 4 平台放在同一个体系里。

所以一旦你接受“自动驾驶最终要靠一个更统一、更大的模型去理解世界、记住历史、推断意图、生成动作”，车载推理卡的重要性就会一下子抬上来。它不再只是一个配置问题，而是这条路线能不能成立的物理底座。

真正成熟的自动驾驶系统，既要长期吃多路摄像头和各种传感器的连续输入，又要保留时序记忆、做复杂博弈、处理长尾场景，还必须全程本地实时推理，不能把压力甩给云端。我不负责任的乱拍一下，车上的主驾驶模型，比较像样的体量大概会在20B 到 80B 的活跃参数之间；对应的车端推理能力，我会拍在2000 到 8000 TOPS这个区间。

如果用今天大家更容易建立直觉的消费级显卡来打比方，可以把它想象成：真正成熟的自动驾驶推理，差不多就是两张 RTX 5090 这个级别的算力起步。这个比喻当然不严格，因为车规芯片和桌面显卡不是一回事，但拿来帮助理解非常直接。这意味着什么？中国每年销售的汽车数量大概是3000万辆，自动驾驶彻底落地后，会直接杀死所有的传统车型，用3000万辆来估计，每台车必备的车载推理卡仅仅在中国一年的销售额就将是3000万乘以2万（以RTX5090的市场价估算）6000亿元的大市场。目前在A股还没有一个潜在的标的公司。

结语

这就是我越来越看好自动驾驶的原因。

因为它过去十年真正卡住的几个点——规则树的天花板、长尾经验的稀缺、仿真不够真、车端算力不够大——现在开始同时被一条更统一的路线打通了。

Transformer 解决的是统一时空建模的问题。

强化学习解决的是长尾优化的问题。

仿真解决的是经验供给的问题。

车载推理卡解决的是把这一切真正塞进车里的问题。

这几件事以前不是没有人分别做，而是它们没有同时成熟。

一旦它们开始同时成熟，自动驾驶就会从一个“好像永远差最后一步”的行业，突然变成一个增长曲线很陡的行业。

到那一步，变化不会只是“开高速轻松一点”“泊车方便一点”这种局部体验升级。真正的变化会更狠：驾驶会从一种必须由人持续执行的技能，变成一种被机器稳定提供的基础能力。方向盘后面坐着一个人，会慢慢从默认前提变成一种过渡时代的习惯；今天我们默认“开车必须有人”，未来回头看，可能会像今天回头看“电梯里必须站一个拉杆的人”一样古老。

过去一百年，司机一直是汽车文明最稳定的人类接口。

未来一百年，随着“开车”被机器从技能变成基础设施，这个职业很可能会像马车夫一样，逐步退出主舞台。

参考资料

Tesla《Master Plan, Part Deux》
Waymo 官方博客
BEVFormer、UniAD、MindDrive 论文
Applied Intuition Neural Sim 官方博客
NVIDIA DRIVE 与 RTX 5090 官方资料

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

自动驾驶在未来三年会迎来大爆发

“狼来了”

Transformer 和强化学习

强化学习和仿真系统

车载推理卡

结语

最新文章

热门文章

随机文章

自动驾驶在未来三年会迎来大爆发

“狼来了”

Transformer 和 强化学习

强化学习和仿真系统

车载推理卡

结语

10万级SUV也能这么玩?零跑B10的七个细节,看完我改了想法

家用混动轿车标杆之作 2023款比亚迪秦PLUS冠军版DM-i 120KM超越型深度评测

最新文章

热门文章

随机文章

Transformer 和强化学习