阅读约9分钟 | 关键词:BEV、Transformer、视角统一、时序融合
第11天我们讲过目标检测——AI能从图像里找出车和人。但有个问题没解决:不同摄像头的视角不一样,怎么把它们的“所见”拼成一个统一的世界?
前视摄像头看到的是“前方”,侧视看到的是“侧面”,环视看到的是“俯视”。如果每个摄像头各自为政,系统就相当于一个房间里同时有4个瞎子各说各话。BEV(Bird's Eye View,鸟瞰视角)就是来解决这个问题的。
🧩 一、为什么需要BEV?
传统做法:每个摄像头独立检测目标,然后把检测结果(“前方30米有辆车”“左后方5米有行人”)拼在一起。问题是:
· 视角不一致:前视看到的是矩形框,环视看到的是梯形投影,同一辆车在不同摄像头里形状不同,难以关联。
· 遮挡与盲区:前视摄像头看不到侧方被遮挡的行人,但侧视能看到。独立检测无法“共享”信息。
· 空间推理困难:每个目标都是独立的“框”,系统很难理解它们之间的相对位置和交互关系。
BEV的做法:把所有摄像头的图像特征,统一“投影”到一个俯视图平面上。就像把4个监控摄像头的画面拼成一个“上帝视角”的俯瞰图——车辆、行人、车道线都在正确的位置上,系统一眼就能看明白整个场景的布局。
🧠 二、Transformer:让“拼接”变得聪明
把图像投影到俯视图不是简单拉伸,因为摄像头是不同角度、不同位置安装的,图像中的每个像素对应的3D位置需要“猜”。
传统方法(IPM,逆透视映射)假设路面是平坦的,把图像像素按几何关系投影到地面。但遇到上坡、下坡、颠簸,投影就歪了。
Transformer是2021年以来BEV的主流方案。核心思想:让神经网络自己学习“图像上的每个像素应该放到俯视图的哪个位置”。
简化理解:Transformer用“注意力机制”建立图像特征和俯视图网格之间的对应关系。它不看“这条路是不是平的”,而是根据图像中的纹理、边缘、阴影等线索,推测每个像素对应的3D位置。上坡时,远处的地面看起来“翘起来”了,Transformer能学到这种变形规律,从而准确投影。
🚗 三、BEV+Transformer的威力
统一视角:所有摄像头的特征在同一个俯视图坐标系下融合,系统不再需要“前视说前视的、侧视说侧视的”,而是直接看到一个完整的“场景俯视图”。
时序融合:把过去几帧的BEV特征叠加起来,可以推测被遮挡物体的运动轨迹。比如行人被前车挡住3秒,但BEV时序特征会保留“那里有人在移动”的信息,即使当前帧看不见,系统仍知道“那里有个人,别撞上去”。
端到端友好:BEV特征可以直接输入决策规划模块,省去了“目标列表”这层信息压缩。特斯拉FSD V12的感知部分就是BEV+Transformer架构。
📊 四、主流方案简评
特斯拉:最早量产BEV+Transformer,纯视觉,无需雷达。依赖海量数据和超强算力,其他厂商难以复制。
华为ADS:BEV+Transformer + 激光雷达融合,感知冗余更充分。在施工区、异形障碍物等场景更稳。
小鹏XNGP:基于BEV+Transformer的感知架构,支持无图城市NOA。目前已覆盖超过200个城市。
理想AD Max:BEV架构 + Occupancy Network(占用网络),能识别任意形状障碍物(雪糕筒、轮胎、树枝等)。
⚠️ 五、BEV的挑战
算力消耗大:Transformer的计算量远大于传统CNN,需要高算力芯片支撑。老款车型可能因为算力不足无法升级BEV方案。
数据依赖:BEV需要大量标注好的俯视图数据。标注成本极高,头部玩家靠影子模式(第28天)采集,小厂商可能望而却步。
极端天气:大雨、大雪遮挡摄像头时,BEV的输入质量下降,俯视图也会变差。这就是为什么BEV方案通常搭配毫米波雷达或激光雷达做冗余。
📌 给普通用户的一句话
BEV+Transformer是当前主流智驾方案的核心技术。如果你买的车型宣传“基于BEV架构”或“Transformer感知”,说明它的感知能力属于第一梯队。如果还是“基于2D目标检测”的老架构,城市NOA的体验可能会差一截。
🎯 明天预告(第44天 / 动态篇)
结合今天的BEV知识,解读一则行业新闻:某品牌OTA升级BEV架构,老款车型因算力不足无法更新。
本系列为100天深度学习计划,每日1篇。欢迎随时提问。