自动驾驶的发展,本质上是一场机器如何理解真实交通世界的演进史。过去十余年,行业经历了多轮感知范式迭代:从早期基于规则与几何的检测跟踪,到深度学习驱动的2D感知;从多传感器点云时代,到以BEV为代表的空间统一表达;再到Occupancy(OCC)引领的连续世界建模,以及如今迈向感知-预测-规划一体化的端到端体系。
如果说过去自动驾驶关注的是“看见什么”,那么今天行业关注的是:
★世界长什么样? 它接下来会怎样变化? 我该如何在其中行动?
这正是感知形式持续演进的核心逻辑。
一、目标检测时代 —— 当世界被简化为Item List
在深度学习重写感知规则之前,自动驾驶继承的是ADAS时代的世界观:一个由可辨识物体拼接而成的结构化场景。车辆、行人、车道线、红绿灯,像一份库存清单,系统只需要把清单列对,就能开车。
这种“物件中心论”给工程带来一个致命诱惑——边界清晰,分工明确。感知团队可以围绕每一类目标独立迭代,评测指标简单直观,mAP上升就等同于能力提升。但这里面藏着一个玻璃天花板。
框的暴力抽象。 真实道路从来不是矩形集合。一段弯曲的路沿被离散成多个检测框,彼此并无拓扑关联;异形施工车辆被强制纳入“卡车”类别,几何信息在投影到2D框的瞬间就丢失了。这如同用乐高积木去拼凑流沙——看起来成型,一碰就碎。更重要的是,未被定义的物体不存在于这个世界的认知里。掉落的纸箱、倾倒的护栏、货车上滚落的轮胎,在系统眼中是像素背景,是不值得响应的幽灵。这便是长尾问题的根源:我们在用一个有限集合去对抗一个无限开放的世界。
另一个更隐晦的暗坑出在空间参考系的分裂。2D检测依赖图像坐标,3D检测依赖相机-激光雷达融合后的车体坐标,而规划控制工作在局部平面坐标系。当把一个Bounding Box传给下游,它在三个坐标系中的表达会有微妙的不一致性,尤其是在颠簸、坡道、摄像头内参微小漂移的情况下。这些偏差在大多数场景下被忽略,但在极端工况中会像蝴蝶效应一样被放大。工程师们用繁琐的在线外参估计、时间戳同步来修补,本质上是在给一个原本就存在裂缝的抽象层打补丁。
二、点云时代 —— 几何信仰的高光与反噬
激光雷达的出现,像是给机器戴上了一副能直接感知深度的眼镜。它不依赖纹理、不惧怕光照、天然输出三维坐标,这对饱受单目深度估计困扰的视觉派来说,几乎是一种降维打击。点云范式将感知重心从“识别物体”拉回到“占据空间”,这是一个质变。
然而,几何信仰的激进推演,很快遭遇三重反噬。
第一重,稀疏性的诅咒。 高线束激光雷达在近处浓密得近乎浪费,一到80米外,点云稀疏得像夜空中最亮的星。这意味着一个远方横穿马路的小孩,可能只对应几个点。传统的PointNet系列或体素化方法,在远距离小目标上几乎等同于盲人摸象。工程上被迫引入ROI Pooling、多尺度融合,但补得越多,系统越臃肿。
第二重,语义的失语。 点云给出完美的空间轮廓,却丧失了对这个世界最丰富的语义描述。一个红色信号灯和一块红色广告牌,在点云中只是两个反射率相近的平面。激光雷达看不见颜色、看不懂文字、辨不清箭头。这导致感知必须退回到多传感器融合的老路上,而融合本身就是一场噩梦——毫米级的时空对齐误差,足以把一辆停在路边的车“分裂”成两个不完全重合的物体。这种影子模型现象,是点云与图像异源融合的固有顽疾。
第三重,也是最具讽刺性的一重: 激光雷达最引以为傲的精确距离,在雨雾、沙尘、尾气中会退化成一堵噪声墙。真实世界中,几何完整性是奢侈品。因此,纯激光雷达路线的终局并非全知全能,而是在恶劣天气下退化为一个比摄像头更不可靠的传感器。许多L4公司早期对激光雷达的过度依赖,实则是用高成本换取了“晴朗日”的局部最优。
三、BEV时代 —— 一场空间统一战争的代价
2021 年前后,Transformer 架构(BEVFormer,它提出的空间交叉注意力和时间自注意力彻底改变了 BEV 的技术路线)的引入成为关键。它通过非局部注意力机制(Non-local Attention),让跨相机特征的关联不再依赖繁琐的人工几何投影,而是通过数据驱动自动学习空间关联,为 BEV 的爆发铺平了道路。
BEV并非某种新颖的网络结构,而是一套空间翻译协议:将所有传感器信息统一投射到俯视地平面。它解决了上一代最痛苦的碎片化问题——多相机拼接、时序融合、感知与规划接口不统一。
但从工程角度看,BEV本质上是在构建一个压缩的影子模型。它把3D世界强制压扁成2D网格,每一格都承载着聚合后的特征。这个压缩过程带来的不仅仅是便利,还有不可见的代价。
高度信息的蒸发。 许多现实中的风险恰恰体现在高度维度上。一座限高杆在BEV中只是一片占据栅格,和地面标志无异;一个吊在半空的钢缆,在BEV中可能根本不存在。工程师们通过将1)BEV扩展为多个高度层、2)引入Occupancy作为补充来缓解,但BEV本身作为一个规划接口,先天决定了系统倾向于“安全带以下的世界图景”,对悬空物、桥洞、地下车库入口等Z轴显著场景存在结构性盲区。目前的改进方向是向 Sparse Perception(稀疏感知) 演进,利用 Query 机制在 3D 空间中直接索引特征。
时空缝合的脆弱性。 BEV要融合历史帧,必须依赖自车运动补偿。这假设了世界是静止的,所有移动都源于自身。一旦引入动态物体,补偿就变成一场猜谜:一个横穿的车辆在历史帧中的位置,与我们预测它应该出现的位置之间,永远存在一个无法闭合的偏差。更棘手的是,定位抖动、IMU漂移会像打印机卡纸一样,把前后帧的特征图错位叠加在一起。工程师能做的,是在特征对齐层注入大量不确定性估计和Attention偏移学习,这相当于在房子地基下垫橡胶——能住,但不牢固。
数据闭环的隐喻:旋转木马困境。 BEV模型的训练数据依赖精确的3D标注或点云监督。一旦依赖激光雷达做真值,就意味着视觉BEV永远活在激光雷达的影子之下,纯视觉路线的天花板被封死。因此,真正要突围BEV,必须建立不依赖LiDAR的4D自动标注体系,而这又对视觉深度估计和光流精度提出了近乎苛刻的要求,形成了一个自我指涉的闭环:为了甩掉激光雷达,得先有一个足够强的视觉系统,而这个系统又需要海量高质量纯视觉数据来训练。
四、Occupancy时代 —— 连续世界建模的甜蜜与沉重
Occupancy网络将BEV的2D栅格升维为3D体素,不再输出“这里有一辆车”,而是“这个空间单元的状态是什么”。它从根本上拥抱了长尾障碍物,把所有占据空间的东西一视同仁。这种表达和自由空间规划天然对齐,一度被认为是通向World Model的终极感知形式。
但引入Occupancy,等同于把一个二维推理任务提升到三维,计算量是立方级的膨胀。工程师面对的体素分辨率悖论触目惊心:为了捕捉路边的锥桶,希望体素大小在5厘米左右;为了让视野覆盖200米,体素数量会爆炸到难以承受。只能在近处精细、远处粗糙之间做Octree或可变分辨率采样,这就像用一把筛孔大小不一的筛子去过滤世界,总有些细小的危险会从粗孔漏过去。
联合重建与预测的重担。 许多团队设想Occupancy可以顺理成章地延伸到未来帧预测,形成统一的时空世界模型。但真实情况是,重建的准确性和预测的合理性之间存在深层的训练冲突。网络为了降低当前帧的重建Loss,会倾向于编码大量纹理和几何细节,而这些细节在预测未来时又成为噪声,因为在运动预测中保留墙上的涂鸦或树皮的纹路毫无意义,反而会占据宝贵的Latent容量。这逼着工程师在Latent空间做显式的信息分离——几何流、纹理流、动态实例流,如同把一杯混合的颜料再一滴一滴分开。当前没有任何方案能完美解决这一分离,它仍是开放的研究难题。
语义沉淀的退行。 Occupancy是对“占据”的建模,但单纯知道“这里不能走”不够,还需要知道“为什么不能走”——是临时栅栏还是常年花坛,是停止的公交车还是一堵墙。纯占据缺乏语义深度,会导致规划器过度保守或判断失准。于是一套完整的系统不得不叠床架屋:OCC + Semantic Head + Instancing + Vector Map。这种缝合结构把复杂度推向新高,也让端到端的梯度流在多个任务监督的拉扯下变得支离破碎,类似于同时调校一架钢琴的多根弦,却只允许拧一根弦轴。
五、Vector化感知 —— 地图级结构理解的隐性战争
前文从Occupancy过渡到预测之前,必须补上这座被绕开的桥梁。Vector化感知并非Occupancy的附庸,而是在空间占据之上叠加的规则结构层。它回答的是:这个世界不仅由“能不能走”组成,还有“该怎么走”的交通文法。
5.1 矢量表达的诱惑:把世界画成工程蓝图
Occupancy告诉你前方10米有一片空闲空间,但它不告诉你这片空间是直行车道、左转待转区,还是非机动车道的灰色地带。对于规划器而言,同样的空闲空间,语义不同意味着完全不同的合法动作集合。
Vector化感知将道路结构抽象为带属性的几何基元:车道中心线(带方向、曲率、宽度),停止线(带关联的红绿灯相位),斑马线边界,路口拓扑(入道与出道连接关系),交通标志的实例化语义。这些基元不是像素,不是体素,而是参数化的几何实体。一条车道线用几十个控制点就能表达,而它在BEV栅格中需要数百个格子,在Occupancy中需要上千个体素。这种紧凑的表达对下游极友好——规划器不需要从栅格中重新推理道路结构,而是直接消费结构化的地图查询接口。
代表工作如HDMapNet、VectorMapNet、MapTR,它们的核心突破在于:不依赖高精地图先验,直接从传感器在线构建矢量地图。这剥离了对昂贵、易过时的高精地图的依赖,让系统拥有了对道路变化的在线适应能力。
5.2 矢量化的第一重困境:离散拓扑与连续几何的撕裂
但矢量表达的优雅,恰恰是其工程痛苦的源头。
一个路口对机器而言是复杂的双重结构:底层是连续的几何曲线(车道边线、停止线在空间中的精确位置),上层是离散的拓扑图(哪条入道连接哪条出道,允许哪些转向行为)。Vector化感知必须同时输出这两者,并保持它们之间的严格一致性。
工程中上演的典型悲剧场景:几何上车道线画得非常准,误差只有5厘米,但拓扑上把一条直行车道错误连接到了左转出口。这导致规划器在物理上“能走通”的路径,在法律上是禁止的——车辆会驶入错误方向。
更致命的是,几何误差和拓扑误差的反馈信号在训练中是不对等的。L2损失对车道线位置偏移很敏感,但对“这条车道该连到哪条路”的拓扑错误几乎无感。因为拓扑是一个关系图,连接错误并不会在逐点回归的Loss中体现为巨大的数值差异。于是网络倾向于讨好几何精度,悄悄牺牲拓扑正确性(也可以表述为“拓扑”的监督信号稀疏)。这像是一个建筑师把每面墙都砌得笔直,却把门开在了离地面两米高的地方——每个局部都完美,整体却不可用。
工程师被迫引入专门的拓扑监督损失、图匹配算法、车道接力一致性约束,但这些补充损失像外挂器官,和主体几何损失之间存在持续的梯度拉锯。调校这种多任务平衡,如同同时控制三个相互通气的汽缸,压下一边,另两边就翘起。
5.3 矢量化的第二重困境:静态地图与动态现实的时差错位
在线构建的矢量地图捕获的是传感器观测瞬间的道路结构。但这一瞬间本身就包含干扰:一辆大巴车停在车道线上,直接遮挡了关键的标线;道路施工用临时标线覆盖了原有标线,新旧线在图像中同时可见;交叉路口左转待转区内停满等待车辆,停止线完全不可见。
这意味着矢量感知必须同时执行场景解耦:哪些结构是永久路面标记,哪些是临时遮挡物,哪些是移动物体投射的伪结构。
这不仅是一个感知问题,更是一个时序推理问题。人类司机看到遮挡的路口,会基于几秒前瞥见的结构进行推断,再结合对路口结构的先验知识。机器要达到类似能力,需要在线建图模块维护一个置信度衰减的结构记忆,并在遮挡解除后的几帧内完成校准。这种短时地图记忆与Occupancy的动态占据记忆并非同一种东西——前者关心道路文法规则的稳定性,后者关心空间障碍的变化。二者在时序尺度和更新逻辑上存在微妙不同,堆叠在一起会增加Latent空间的信息密度,让网络的隐式表征不堪重负。
5.4 融合中的结构性矛盾:OCC、Vector、Agent三股力量
回到那幅完整的世界表示拼图:Occupancy + Vector Map + Agent States。这三者理论上应该水乳交融,但实际上它们存在深层的表征冲突。
Occupancy是密集的、体素化的、非参数的。它对空间的理解方式是“每个格子的状态分布”,不区分物体与背景,不关心结构连续性。Vector Map是稀疏的、几何参数化的、严格遵守交通文法的。它要求拓扑闭合性、连接一致性、不冗余不遗漏。Agent State是实例级的、动态的、有身份ID的。它关心个体的运动历史、预测意图、交互关系。
将这三者塞进同一个Latent Space,如同让一位画家、一位制图师和一位物理学家共用一张图纸作画。画家涂涂抹抹追求氛围,制图师要求线条精准无歧义,物理学家只关心质点的动量和碰撞半径。三者画出的东西叠在一起,彼此覆盖、干扰,梯度信号在共享特征层中乱窜。
最尖锐的矛盾出在Occupancy与Vector Map的边界。一条被车辆遮挡的车道线,Occupancy会标记那一片空间为“被占据”,Vector Map却需要“穿透”车辆推断线仍然存在。这两个输出在同一片空间上是矛盾的:一个说这里不可通行,另一个说这里有一条合法车道。这个矛盾不能粗暴用加权投票解决,因为它不是感知精度的争议,而是物理现实与交通规则的范畴差异。工程师的对策往往是在高层引入独立的推理分支,但每次分支都是对端到端理想的背离。
5.5 终究:Vector化是通往交通智能的必经窄门
尽管有上述种种撕裂,Vector化感知不能绕过。因为在自动驾驶的最终拼图中,交通规则不是感知的副产品,而是世界模型的一等公民。一个只能理解物理障碍的系统,永远无法理解为什么红灯不能右转、为什么潮汐车道8点方向改变、为什么地面有标线但所有当地车辆都忽略它。
Vector化提供的不是空间占用的更高精度,而是规则结构在几何空间中的锚定。它将交通法规的抽象条文附着在具体的空间位置和连接关系上,让规划器在合法空间中做决策,而不是在物理空间中野蛮试探。
这套规则层在下一代架构中可能不再是一个显式的模块输出,而是通过隐式查询让规划器直接检索结构信息。但无论接口形式如何变,地图级的结构理解永远不会消失——它只是从雷达屏幕上的一张图层,沉入了网络深处的一束专用Latent Code。
六、预测形式的变迁:从轨迹外推到世界推演
预测模块的演进,是一部从孤立的物理定律滑向集体博弈史的过程。
早期运动学外推将车辆视为惯性铁块,几秒之后的轨迹偏离在所难免,但胜在简单稳定。多模态轨迹预测引入了一个诱人的概念:输出多条可能路径,让规划器自主选择。然而在工程中,多模态的暗面快速浮现:输出30条轨迹覆盖所有可能性看起来安全,但规划器面对一个概率分布几乎均匀的未来,反而会陷入“决策瘫痪”。真正常用的未来不会超过3~5种,如何在这有限模式中准确捕捉并保证覆盖率,是一个需要大量先验调校的陷阱。调校不好,就会上演“预测了一万种死法,唯独没想到司机踩了一脚油门”的黑色幽默。
交互式预测将多车博弈纳入考虑,图神经网络和Transformer让智能体之间相互“观察”成为可能。不过,这里藏着一个更根本的冰山模型:我们能观测到的车辆位置和速度只是海面之上的尖角,水下是驾驶员意图、情绪、疲劳程度、当地驾驶文化这些难以建模的潜变量。用表面轨迹去反推深层意图,本质上是一个病态问题。一些架构尝试引入行为意图Anchor或社会力场先验,但这些先验本身携带的假设,在跨地域迁移时可能成为偏见而非助力(分布偏移)。
当下最大的趋势是将预测与感知融合为未来的Occupancy或场景级世界状态推演。这意味着预测不再只回答“A车去哪里”,而是回答“未来几秒世界的整体栅格状态”。这一设计的优雅之处在于,规划可以直接在预测出的未来世界中搜索安全轨迹。可随之而来的挑战也异常冰冷:预测的未来栅格图是模糊的、多解的,而规划对安全空间的要求是清晰、二值的。如何从模糊的未来中提取确定性的无碰撞区域,成了横亘在World Model与Planner之间的新鸿沟。硬阈值处理会把不确定性抹平,导致过度保守;保留概率又迫使规划器处理随机最优控制问题,算力难以满足实时性。
七、边界消失 —— 终局架构的诱惑与深渊
当感知、预测、规划被揉 进同一个网络,传统模块间的接口摩擦消失,信息瓶颈被打破,这是端到端最令人神往的许诺。从“Observation→World Model→Action”的统一架构,尤其是VLA等模型的出现,让人看到一条通向通用驾驶智能体的捷径。
然而,接口的消失也意味着责任边界的消失。在模块化系统里,感知漏检了行人,我们可以定位到感知模型、增补数据、回归测试。一旦端到端网络在某个场景下做出了错误转向,你面对的是一个万亿参数空间的迷雾。错在哪一层?是视觉编码器对逆光的失效,还是注意力机制对某个关键Agent的忽略,抑或是价值函数在舒适性与安全性之间的权重偏斜?它像一个深度耦合的化学溶液,无法蒸馏回原本的元素。
这带来一个工程上最令人头痛的挑战:影子调试。修改数据集分布以解决高速场景的保守变道问题,城市交叉路口的激进程度可能同步上升,二者在训练梯度中的耦合关系像一团乱麻。安全验证也随之坠入深渊。传统基于里程的覆盖度指标不再适用,因为场景泛化边界无法界定。你需要在仿真中构建无限多样的对抗性世界,这便是World Model的另一重意义——它不但是驾驶策略的训练场,更应成为检验策略的工具。目前,没有任何一个合成世界可以完美模拟真实物理和人类行为的肥尾特性,这使得端到端架构的验证始终存在一个不可闭合的风险缺口。
另一个冰冷的现实是算力天花板。世界模型和一体化智能体对车载算力的饥渴远超现有芯片的进化速度。当模型在数据中心用8卡H100跑得欢快时,工程师必须面对工程化的灵魂拷问:你能否在一个35W功耗、半精度算力几百TOPS的嵌入式盒子里,塞进整个世界的运行规律?这是对模型压缩、稀疏化、Token丢弃策略、潜在空间降维的组合压榨,每一步压缩都在剪除网络的一小部分“直觉”。也许压缩后的网络恰巧剔除了处置极限情况的关键连接,而你只有在真实路测的那一刹那才会发现。
此外,CPU/NPU/GPU 的边界变得模糊,频繁的张量交换(Tensor Swapping)成为新的系统瓶颈。感知范式的变迁本质上也是在追求计算的高利用率。例如,OCC 之所以重,是因为它对 NPU 的带宽要求极高;未来的范式可能会向“感兴趣区域的动态精细化”发展,以匹配嵌入式芯片的散热和功耗墙。
八、三个主流路线判断
面对上述种种,未来不会收敛到单一终极方案,而是沿着三条路线形成动态平衡。
路线一:纯视觉世界模型。 低成本、高数据规模优势明显。它必须解决深度感知先天性不足的难题,依靠海量序列数据的光度重投影误差作为自监督信号,这便要求数据引擎具备近乎完美的动态掩膜剔除能力和静止世界假设的边界处理技巧。同时,视觉系统在高动态范围、雨夜逆光场景中的稳健性,仍是实验室与真实世界之间的“最后一公里”,这一公里泥泞不堪。
路线二:视觉-激光雷达融合OCC。 安全冗余更强,尤其适合中国式复杂城市场景:突然窜出的电动车、不成文的路权规则、道路表面的异形凸起。但这种融合并非两个传感器平等的联盟,更多是一方主导下的互补。外参在线标定、时间对齐、不同衰减率下的置信度博弈,构成一套精密但脆弱的动态调校系统。一次轻微追尾导致LiDAR支架变形1度,就可能让融合质量从98%骤降至70%,而系统往往难以自知。
路线三:多模态大模型驾驶智能体。 尝试把常识和语言推理注入驾驶决策,让车辆理解“前方有临时集市,人群可能突然散开”这类基于世界知识的模糊判断。但语言带来的抽象性与驾驶所需精确时空坐标之间存在“语义-几何鸿沟”。大模型生成的轨迹可能逻辑合理,却不在物理可达域内,或者与交通规则产生微妙冲突。它目前更像一个具有惊人直觉但缺乏驾照的副驾,而非可靠的掌舵者。
九、结论:从“看见目标”走向“理解世界”
过去十年行业主线可以概括为:
BBox → Point Cloud → BEV → OCC → World Model
对应认知层级提升:看见物体 → 理解空间 → 理解场景 → 理解动态世界 → 预测未来并决策。
这意味着:自动驾驶的竞争,已经不再是谁检测精度高1%,而是谁拥有更强的世界建模能力。未来胜负手不在单点算法,而在:数据闭环能力、世界模型能力、端到端训练能力、算力部署能力、安全验证体系。
最终,自动驾驶感知范式的变迁史,是一部不断逼近真实世界复杂度的认识论旅程。 每一代范式的兴起都在解决前一代的结构性牺牲,却又无可避免地制造出新的盲区和工程负债。目标检测牺牲了几何完整性,点云牺牲了语义,BEV牺牲了高度维,Occupancy背负起算力重担,一体化智能体则抽走了模块化调试的阶梯。亟需在当前的技术底座、商业边界和安全底线之间,找到那个只能承受的、不完美的平衡点。未来的胜出者,不会是追求单一指标最优的天才算法,而是那些能驾驭残缺、管理复杂性、在无数已知与未知的裂缝中依然稳健前行的系统。