“狼来了”
自动驾驶这件事,这十年一直有一种很强的“狼来了”气质。
大概从 2015 到 2016 年,这一轮热潮就已经开始了。Tesla 在 2016 年的《Master Plan, Part Deux》里就已经把自动驾驶放进了核心蓝图;也是在 2016 年,Google 的无人车项目正式独立成了 Waymo。十年过去,到 2026 年,Waymo 发布了自己的 Waymo World Model,国产新能源汽车的自动驾驶也让普通用户尝到了甜头,整个行业一直在往前走。只是它始终没有迎来大家当年想象中的那种“彻底落地、瞬间爆发”。
这也是很多人今天对自动驾驶感到困惑的地方:人类考个驾照看起来并不难,为什么机器反而这么多年都没搞定?这个问题的关键不在于“开车”到底有多难,而在于过去很长一段时间里,行业其实是在用一条不够对的路线解决它。
人类学会开车,看起来简单,不是因为驾驶这件事真的简单,而是因为人脑天然就是为这种任务准备的。你在路口看到一个站在人行道边上的人,会几乎本能地判断他会不会突然横穿;你看到前车轻轻点刹,会立刻感觉到前面可能有情况;你看到一辆电动车的车头角度,就会下意识预判它会不会硬挤进来。人是在凭空间直觉、常识、经验和对他人意图的模糊理解,做一个连续不断的判断过程。
但过去很多年,自动驾驶不是这么干的。它更像是把驾驶拆成很多零件:感知负责看见,预测负责猜别人要干嘛,规划负责想自己怎么走,控制负责把方向盘和刹车打出去。然后每一层再叠上规则、阈值、状态机和大量兜底逻辑。这套东西当然有价值,没有它,就不会有今天已经相当成熟的高速领航和自动泊车。但它的问题也很明显:它非常像一套能把系统从 0 分做到 60 分,却很难把系统从 60 分做到 95 分的方法。
因为真实道路根本不是一个有限状态机。
驾驶最麻烦的地方,从来不是某个单点问题特别难,而是无数中等复杂的问题会以意想不到的方式叠在一起。一个鬼探头行人,一辆斜插的电动车,一台突然借道避让的前车,一段临时施工改道,一片逆光,再加上一点雨夜视线不佳——这些东西单独拎出来都不算世界难题,但一旦叠在一起,复杂度就会急剧上升。规则树在这里的根本弱点就暴露出来了:它擅长处理“我已经见过、而且已经写过”的情况,却不擅长处理“虽然长得不一样,但本质上是一类风险”的情况。它可以枚举,但很难真正归纳。驾驶不是一堆割裂模块的问题,而是一个统一的时空决策问题。
Transformer 和 强化学习
这也是为什么我越来越相信,Transformer 这类模型路线,第一次让自动驾驶看起来像是在往终局走。
因为驾驶天然就是一个时序问题、空间问题和多模态问题的叠加。车不是在看一张图,而是在持续接收前视、侧视、后视、环视摄像头的视频流,还要结合雷达、激光雷达、IMU、导航和自己的历史动作。它做决策也不是“看一帧打一把方向”,而是把过去几秒发生了什么、现在发生了什么、接下来大概率会发生什么,一起放进上下文里理解。Transformer 天生就擅长在长上下文里动态决定当前到底该关注哪些时间点、哪些目标、哪些视角。换句话说,它第一次让机器有机会像一个司机那样,持续理解周围这个三维世界,而不是靠一堆局部模块拼出一个“像开车”的东西。
但如果只是把规则树换成 Transformer,还是远远不够。因为那样做,本质上仍然可能只是让模型去学“平均司机在平均场景里的平均操作”。这能让它越来越像一个合格司机,但未必能让它在真正要命的长尾场景里变成高手。而自动驾驶真正难的地方,偏偏都在长尾里:低频、危险、组合复杂,但一旦出现就非常致命。
真正让我觉得事情开始变味的,是强化学习开始和这条模型路线接起来了。
我搜到一个叫 MindDrive 的项目。它对问题的描述很直接:现在很多自动驾驶的 VLA 路线主要还是依赖 imitation learning,但 imitation learning 天生会带来 distribution shift 和 causal confusion;他们做的事情,是把 online reinforcement learning 接进来,让模型不只是模仿历史驾驶,而是在闭环环境里通过 trial-and-error 自己优化决策。论文甚至直接说,据他们所知,这是第一次证明 online reinforcement learning 对自动驾驶 VLA 模型有效。
为什么这件事重要?因为它意味着,自动驾驶第一次开始更像 AlphaGo,而不是更像一个复杂的规则引擎。
AlphaGo 最震撼人的地方,从来不是“AI 学会了围棋规则”,而是它能在自我对弈里无限练习,靠试错和反馈把水平推到人类难以企及的高度。以前那套思路,更像是给机器背驾校题库;而强化学习这套思路,更像是让 AI 在数字道路上自己练车。它可以自己去犯错,自己去吃亏,自己去复盘那些现实里十年都遇不到几次、但偏偏最重要的危险场景。现实中的老司机,开一辈子也就积累那么多经验;但在足够真实的仿真环境里,AI 完全可以在很短时间里跑掉上亿公里等价经验。
强化学习和仿真系统
而这又把问题推到另一个关键点上:仿真必须先成熟。很高兴的是,业界真的在这个方向上在用力。
过去很多人提仿真,脑子里还是“画几个虚拟场景、做做 case”的印象。但现在业界最前沿的仿真,已经完全不是那个概念了。
我简单检索到了几个例子: Applied Intuition 在讲他们的 Neural Sim。它不是手工捏几个路口,而是把真实车队采回来的 drive logs 自动转成动态、照片级逼真的 3D 虚拟环境,然后做可扩展的闭环传感器仿真。2025 年他们发布这套系统时,强调的是把真实日志的规模和真实感,和虚拟测试的可控性、效率结合起来;到了 2025 年下半年,他们又进一步写到,Neural Sim 已经能把原始车队数据自动转换成 3D virtual test environments,用来大规模发现 edge cases、减少上路测试,并服务端到端和传统自动驾驶项目。
Waymo 则更进一步。它在 2026 年公开发布的 Waymo World Model,已经不是“日志回放增强版”,而是一个真正的生成式世界模型。Waymo 自己的说法很明确:Waymo Driver 已经跑了接近 2 亿英里的 fully autonomous miles,同时在虚拟世界里跑了 billions of miles;这个 World Model 可以从真实事件自然过渡到模型实时生成的相机和激光雷达世界,还能通过简单的语言提示、驾驶输入和场景布局去改造仿真内容,用来覆盖各种现实里几乎采不到的稀有事件。
这一步为什么关键?因为围棋之所以能让 AI 和 AI 下上亿盘棋,是因为棋盘是完整可模拟的。自动驾驶过去做不到这一点,是因为真实道路太贵、太危险、太稀疏,没法像围棋那样无限练。仿真一旦成熟,局面就变了:那些现实中最难采、最重要、最危险的经验,终于可以被重建、编辑、放大、批量生成、反复训练。到这个时候,自动驾驶才第一次不再像一个“不断补洞的工程项目”,而开始像一个真正会自我进化的 AI 系统。
车载推理卡
再往下推,逻辑就会自然落到车端算力上。
当你决定用大模型思路去解决自动驾驶时,参数量一旦上去,推理就不可能放在云端。驾驶不是聊天,不能把感知和决策发到云上等返回;它要求的是实时、持续、稳定,而且责任链必须闭合在车上。NVIDIA 现在官方对车载平台的描述,本身就把重点放在“处理自动驾驶所需的复杂实时工作负载”,同时把车端计算、闭环仿真和 Level 4 平台放在同一个体系里。
所以一旦你接受“自动驾驶最终要靠一个更统一、更大的模型去理解世界、记住历史、推断意图、生成动作”,车载推理卡的重要性就会一下子抬上来。它不再只是一个配置问题,而是这条路线能不能成立的物理底座。
真正成熟的自动驾驶系统,既要长期吃多路摄像头和各种传感器的连续输入,又要保留时序记忆、做复杂博弈、处理长尾场景,还必须全程本地实时推理,不能把压力甩给云端。我不负责任的乱拍一下,车上的主驾驶模型,比较像样的体量大概会在20B 到 80B 的活跃参数之间;对应的车端推理能力,我会拍在2000 到 8000 TOPS这个区间。
如果用今天大家更容易建立直觉的消费级显卡来打比方,可以把它想象成:真正成熟的自动驾驶推理,差不多就是两张 RTX 5090 这个级别的算力起步。这个比喻当然不严格,因为车规芯片和桌面显卡不是一回事,但拿来帮助理解非常直接。这意味着什么?中国每年销售的汽车数量大概是3000万辆,自动驾驶彻底落地后,会直接杀死所有的传统车型,用3000万辆来估计,每台车必备的车载推理卡仅仅在中国一年的销售额就将是3000万乘以2万(以RTX5090的市场价估算)6000亿元的大市场。目前在A股还没有一个潜在的标的公司。
结语
这就是我越来越看好自动驾驶的原因。
因为它过去十年真正卡住的几个点——规则树的天花板、长尾经验的稀缺、仿真不够真、车端算力不够大——现在开始同时被一条更统一的路线打通了。
Transformer 解决的是统一时空建模的问题。
强化学习解决的是长尾优化的问题。
仿真解决的是经验供给的问题。
车载推理卡解决的是把这一切真正塞进车里的问题。
这几件事以前不是没有人分别做,而是它们没有同时成熟。
一旦它们开始同时成熟,自动驾驶就会从一个“好像永远差最后一步”的行业,突然变成一个增长曲线很陡的行业。
到那一步,变化不会只是“开高速轻松一点”“泊车方便一点”这种局部体验升级。真正的变化会更狠:驾驶会从一种必须由人持续执行的技能,变成一种被机器稳定提供的基础能力。方向盘后面坐着一个人,会慢慢从默认前提变成一种过渡时代的习惯;今天我们默认“开车必须有人”,未来回头看,可能会像今天回头看“电梯里必须站一个拉杆的人”一样古老。
过去一百年,司机一直是汽车文明最稳定的人类接口。
未来一百年,随着“开车”被机器从技能变成基础设施,这个职业很可能会像马车夫一样,逐步退出主舞台。
参考资料
- Tesla《Master Plan, Part Deux》
- BEVFormer、UniAD、MindDrive 论文
- Applied Intuition Neural Sim 官方博客
- NVIDIA DRIVE 与 RTX 5090 官方资料