当前位置：首页>自动驾驶>T21: 自动驾驶感知从透视图到BEV

T21: 自动驾驶感知从透视图到BEV

自动驾驶感知最初沿用计算机视觉范式，运行在相机图像平面。

Camera Image → Detection → Tracking

基于二维透视空间（Perspective View）构建，感知核心任务是目标识别：

What 是什么

随着自动驾驶逐步走向真实道路，仅知道目标存在无法满足决策需求。系统开始需要理解距离、位置、车道侵入、碰撞风险等核心信息，问题从语义识别转变为空间理解，推动了空间表示演进：

Perspective → BEV → Occupancy → World Model

摄像头获取的原始图像天然属于透视空间，符合人类视觉习惯。

远处汽车 → 很小近处汽车 → 很大平行车道 → 看起来逐渐汇聚

在BEV普及之前，自动驾驶感知体系几乎完全建立在透视图像之上：

RCNN、Fast RCNN、Faster RCNN、SSD、YOLO

这类方法统一工作在图像像素空间，用于目标识别、分类、跟踪，仅能回答：前方是什么。

该阶段的技术范式可高度概括为：

Perspective View → Image Understanding

整套体系成熟稳定、轻量化高效，适配早期自动驾驶的基础识别需求，但不具备原生空间建模能力。

进入规划决策阶段后，问题暴露：像素距离 ≠ 真实距离

透视成像天然存在近大远小特性：近处车辆占据大量像素，远处车辆仅占据少量像素

自动驾驶落地的核心诉求，是基于真实物理空间的：前车距离、旁车位置、目标是否侵入危险区域等。规划、预测、控制全链路，均在物理空间坐标系下。

二维视觉的根本矛盾：

自动驾驶需要的是米，透视图给的是像素

透视范式可以完美回答：What（是什么），但无法精准回答：Where（在哪里），空间推理的天然短板，成为高阶自动驾驶落地的硬性瓶颈。

BEV（Bird's Eye View）的提出，正是为了弥合透视空间与物理空间之间的鸿沟。

透视图像 → BEV → 物理空间

核心思想：将图像空间 → 映射到统一物理空间

ADAS 时期，行业最先尝试 IPM （Inverse Perspective Mapping）逆透视映射，基于单应变换做几何投影，把原图变换为俯视画面：

透视图像 → IPM → BEV图像

但 IPM 硬性约束所有物体贴地、Z=0。车辆、行人、高架、护栏等离地物体代入后投影严重失真，同一个像素对应多个深度。

行业跳出 “生成俯视图片” 的固有思路，现代 BEV 不再指代鸟瞰图像，而是统一物理空间特征表达：

透视图像 → 特征识别 → 空间变换 → BEV特征表示

IPM 追求 Bird's Eye 图像，现代 BEV 落地的是 Bird's Eye 特征表示。严格说：

传统BEV = 几何变换后的图像现代自动驾驶里的 BEV = 空间特征表示（Spatial Representation）

BEV 以0.5m × 0.5m 的标准网格划分物理空间，远近尺度完全统一，距离、方位、占用、运动关系均可量化计算：距离可测量、方向可计算、占用关系可推理、运动关系可预测

感知就此完成划时代范式升级：

Perspective（解决 What 语义问题） → BEV（解决 Where 空间问题）

BEV第一次让感知输出与自动驾驶下游物理坐标系对齐，成为现代自动驾驶感知的核心空间底座。这也是 BEVDet、BEVDepth、BEVFormer 各类模型迭代的出发点。

但BEV不是终点。虽然BEV解决了空间统一问题，但它仍然存在局限：二维表示、缺少高度信息

例如：桥梁、高架、隧道、悬空障碍物等在BEV中容易产生歧义。空间表示会继续演进：

BEV → Occupancy（三维占据空间） → World Model（世界模型）

总结

透视视图（像素空间，解决语义识别）像素空间 ≠ 真实物理空间鸟瞰视图 BEV（统一物理空间）消除透视畸变，实现可度量空间推理 BEV仅二维平面，缺失高度维度