自动驾驶感知最初沿用计算机视觉范式,运行在相机图像平面。
Camera Image → Detection → Tracking
基于二维透视空间(Perspective View)构建,感知核心任务是目标识别:
What 是什么
随着自动驾驶逐步走向真实道路,仅知道目标存在无法满足决策需求。系统开始需要理解距离、位置、车道侵入、碰撞风险等核心信息,问题从语义识别转变为空间理解,推动了空间表示演进:
Perspective → BEV → Occupancy → World Model
摄像头获取的原始图像天然属于透视空间,符合人类视觉习惯。
远处汽车 → 很小 近处汽车 → 很大 平行车道 → 看起来逐渐汇聚
在BEV普及之前,自动驾驶感知体系几乎完全建立在透视图像之上:
RCNN、Fast RCNN、Faster RCNN、SSD、YOLO
这类方法统一工作在图像像素空间,用于目标识别、分类、跟踪,仅能回答:前方是什么。
该阶段的技术范式可高度概括为:
Perspective View → Image Understanding
整套体系成熟稳定、轻量化高效,适配早期自动驾驶的基础识别需求,但不具备原生空间建模能力。
进入规划决策阶段后,问题暴露:像素距离 ≠ 真实距离
透视成像天然存在近大远小特性:近处车辆占据大量像素,远处车辆仅占据少量像素
自动驾驶落地的核心诉求,是基于真实物理空间的:前车距离、旁车位置、目标是否侵入危险区域等。规划、预测、控制全链路,均在物理空间坐标系下。
二维视觉的根本矛盾:
自动驾驶需要的是米,透视图给的是像素
透视范式可以完美回答:What(是什么),但无法精准回答:Where(在哪里),空间推理的天然短板,成为高阶自动驾驶落地的硬性瓶颈。
BEV(Bird's Eye View)的提出,正是为了弥合透视空间与物理空间之间的鸿沟。
透视图像 → BEV → 物理空间
核心思想:将图像空间 → 映射到统一物理空间
ADAS 时期,行业最先尝试 IPM (Inverse Perspective Mapping)逆透视映射,基于单应变换做几何投影,把原图变换为俯视画面:
透视图像 → IPM → BEV图像
但 IPM 硬性约束所有物体贴地、Z=0。车辆、行人、高架、护栏等离地物体代入后投影严重失真,同一个像素对应多个深度。
行业跳出 “生成俯视图片” 的固有思路,现代 BEV 不再指代鸟瞰图像,而是统一物理空间特征表达:
透视图像 → 特征识别 → 空间变换 → BEV特征表示
IPM 追求 Bird's Eye 图像,现代 BEV 落地的是 Bird's Eye 特征表示。严格说:
传统BEV = 几何变换后的图像 现代自动驾驶里的 BEV = 空间特征表示(Spatial Representation)
BEV 以0.5m × 0.5m 的标准网格划分物理空间,远近尺度完全统一,距离、方位、占用、运动关系均可量化计算:距离可测量、方向可计算、占用关系可推理、运动关系可预测
感知就此完成划时代范式升级:
Perspective(解决 What 语义问题) → BEV(解决 Where 空间问题)
BEV第一次让感知输出与自动驾驶下游物理坐标系对齐,成为现代自动驾驶感知的核心空间底座。这也是 BEVDet、BEVDepth、BEVFormer 各类模型迭代的出发点。
但BEV不是终点。虽然BEV解决了空间统一问题,但它仍然存在局限:二维表示 、缺少高度信息
例如:桥梁、高架、隧道、悬空障碍物等在BEV中容易产生歧义。空间表示会继续演进:
BEV → Occupancy(三维占据空间) → World Model(世界模型)
透视视图(像素空间,解决语义识别) 像素空间 ≠ 真实物理空间 鸟瞰视图 BEV(统一物理空间) 消除透视畸变,实现可度量空间推理 BEV仅二维平面,缺失高度维度