T22: 自动驾驶BEV特征学习:从IPM到LSS
前面的笔记《从透视图到BEV》讨论了BEV出现的原因:
Perspective Space → BEV Space
解决了透视空间与物理空间之间的表达鸿沟。但新的问题随之出现:
早期方案采用IPM(Inverse Perspective Mapping)生成BEV:
Camera Image → Homography → BEV
其核心思想是利用相机标定参数进行几何投影,将前视图直接映射到地面平面。
由于完全基于几何关系构建,IPM具有简单、高效、可解释性强等优点,因此长期应用于ADAS系统。然而IPM成立的前提是:
车辆、行人、路牌、护栏以及高架桥等目标均具有明显高度信息,简单的地面投影会产生空间畸变与定位误差。可以说,IPM解决了视角变换问题,但没有解决三维空间理解问题。
为摆脱平面假设的限制,LSS(Lift-Splat-Shoot)提出了一种新的BEV构建方式。《Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D》由NVIDIA Research发表于 ECCV 2020
Image → Geometry Projection → BEV
Image → Depth Distribution → 3D Space → BEV
核心思想不再是直接投影到地面,而是先恢复场景的三维结构,再构建BEV表示。从这里开始
Lift:图像特征提升至3D空间 Splat:3D特征聚合到BEV空间 Shoot:完成下游感知任务
Geometry-based BEV (鸟瞰图) ↓ Learning-based BEV (可学习的空间特征表示)
BEV不再由几何规则显式生成,而开始由神经网络学习获得。
LSS带来的真正变化,并不仅仅是引入深度估计,而是重新定义了BEV。
•
IPM时代:BEV = Bird's Eye Image
•
LSS时代:BEV = Bird's Eye Representation
后续BEVDet → BEVDepth → BEVFormer → MapTR → Occupancy 等方法,均建立在这一认知基础之上。