摘要
BEV,Bird’s Eye View,常被翻译成“鸟瞰图”。这个名字很容易误导人。它听起来像一张俯视图,像游戏里的小地图,像驾驶系统突然获得了某种“上帝视角”,工程视角来看其最大价值不在于此。
自动驾驶系统最怕的不是“看不见”,而是“看见了却无法统一理解”。摄像头看到的是像素,激光雷达给的是点云,毫米波雷达给的是稀疏目标和速度,地图给的是先验拓扑,规划模块需要的是可通行空间、风险边界和未来轨迹。如果没有统一的中间表达,这些信息就像不同部门各自写账:销售用人民币,财务用美元,仓库用件数,老板要利润。BEV的工程意义,就是把这些账统一成同一本总账。BEV真正的价值也在于此,把摄像头、激光雷达、毫米波雷达、历史帧、道路拓扑和目标状态,统一到以自车为中心的空间坐标系中。
但BEV也不是万能钥匙。它不能真正“看穿遮挡”,不能消灭标定误差,也不能自动带来无图NOA。它只是把自动驾驶系统从“多路感知各说各话”推进到“空间表达统一协作”的阶段。真正决定系统能力上限的,是感知、时序记忆、预测规划、数据闭环、算力预算、传感器冗余与安全策略之间的艰难权衡。
关键词:BEV;自动驾驶;Occupancy;端到端;无图NOA;时空建模;数据闭环
一、BEV本质:不是一张图,而是公共语言
自动驾驶系统为什么需要BEV?
车辆行驶在三维世界里,但摄像头给的是二维图像。二维图像有天然缺陷:近大远小、遮挡堆叠、尺度歧义、距离不直观、跨相机目标难关联。一辆车从左前摄像头进入前视摄像头,像素层面看是两个目标;在道路空间里,它其实是同一个目标沿连续轨迹移动。人类大脑可以自然完成这种空间补全,机器不行,机器需要一个可计算的空间工作台,BEV就是这个工作台。
它把不同传感器的信息投到以自车为中心的空间坐标系里,让系统在同一个尺度下思考几个关键问题:哪里有车,哪里有人,哪里能走,哪里不能走,哪里可能突然冒出风险,未来几秒哪些目标会和自车产生冲突。
图1|BEV在自动驾驶系统中的真实位置:它不是终点,而是感知、预测、规划之间的中间账本。
二、工程创新不在“投影”,在“空间账本如何可靠”
早期BEV可以粗略理解为几何投影:把摄像头图像按相机内外参映射到地面平面。这类方法的代表是IPM,Inverse Perspective Mapping,逆透视变换,应用场景为低速泊车、环视拼接、地面纹理映射。但工程上暴露的问题也很明显:只要地面不平、相机俯仰变化、目标有高度,投影就会变形。
深度学习之后,BEV的核心矛盾从“怎么投影”变成“怎么从不完整观测中恢复空间结构”。LSS提出的Lift-Splat-Shoot路线,核心不是简单画俯视图,而是把每个相机图像的特征沿深度方向“抬升”成视锥体特征,再聚合到BEV网格中。
BEVFormer则进一步引入预设BEV Query,通过空间Cross-Attention和时间Self-Attention,从多摄像头、多时序图像中学习统一BEV表示,并在nuScenes test上报告了56.9% NDS(multi-camera / camera-based 3D perception),较此前最佳方法提升9.0个百分点。
BEVDepth抓住了更工程化的痛点:相机BEV方法的深度估计并不可靠,因此引入显式深度监督、camera-aware depth estimation、Depth Refinement Module和高效体素池化,nuScenes test报告了60.9% NDS(camera-based 3D detection)。
这些方法共同方向不是“让BEV更像图”,而是让系统更稳定地回答空间问题。
| | | | |
|---|
| | | | |
| LSS类depth distribution 的 BEV 表征学习路线 | | | | |
| | | | |
| | | | |
| | | | |
看清这张表,才能理解BEV发展为什么不是单线升级。每条路线都在还债:IPM还几何假设的债,LSS还深度缺失的债,Transformer还跨视角关联的债,Occupancy还三维世界表达不足的债。工程创新从来不是“换个更大的模型”这么简单,而是选择哪笔债最值得先还。
三、BEV的第一层权衡:精度与时延
自动驾驶不是离线刷榜。论文可以等模型跑完,量产车不能。
感知系统每增加一点空间表达能力,都要付出算力、显存、时延和功耗成本。如果BEV网格分辨率 X、Y 两个方向的空间分辨率同时提高一倍,BEV 网格 cell 数约增加 4 倍;若扩展到 3D Occupancy,X/Y/Z 三个方向同时翻倍,体素数约增加 8 倍。;再叠加多相机、多帧、多任务头,推理链路很快变成车端芯片的压力测试。
这就像修城市道路,当然希望每条路都修成八车道,但城市没有无限土地,财政也不是无限。自动驾驶芯片上的TOPS、内存带宽和热设计功耗,就是这座城市的土地和财政。
图2|BEV系统中的核心工程三角:更准、更快、更便宜,不可能同时无限提升。
这也是为什么工程系统经常采用“非均匀资源分配”:近处区域用更高分辨率,远处区域用更低分辨率;对规划相关区域保留更多特征,对无关区域压缩;动态目标保留时序记忆,静态背景降低更新频率。高级系统不是盲目堆算力,而是知道哪些信息值得花钱。
四、BEV的第二层权衡:统一表达与信息损失
BEV最大的价值是统一表达,但统一表达本身也会带来损失。
摄像头图像里有丰富纹理:交通灯状态、地面箭头、路牌文字、行人姿态、警察手势。激光雷达有几何轮廓,但语义贫弱。毫米波雷达速度敏感,但空间稀疏。把它们都压进BEV,必然要选择保留什么、舍弃什么。
BEV不是把世界原封不动装进系统,而是一次战略性压缩。压缩得好,系统获得规划所需的关键状态;压缩得差,细节在中间层被磨掉,下游规划再聪明也补不回来。
真正的系统设计不会把所有任务都塞进BEV。它会让BEV承担“空间总账”的职责,同时保留一些图像域、目标域或语言域分支,专门处理BEV不擅长的细节。
五、BEV与Occupancy:从地面棋盘到三维仓库
BEV擅长表达地面平面附近的交通参与者和道路结构,但真实世界不是一张棋盘。它有低矮石墩、悬空杆件、侧翻车辆、施工围挡、异形障碍物、打开的车门、被风吹起的塑料袋。很多东西不属于标准检测类别,却会影响驾驶安全。
Occupancy的出现,就是为了补这块短板。它不急着判断“这是什么”,而是先判断“这里有没有东西”。这像仓库管理员不一定知道每个箱子里装的是螺丝还是衣服,但他必须知道哪个货架格子被占了,叉车不能撞上去。
理想汽车在AD Max 3.0公开技术叙事中明确提到静态BEV、动态BEV和Occupancy三类网络,并称通过NeRF增强Occupancy还原精度和细节,用于识别垃圾桶、施工牌等通用障碍物。这类路线的工程意义很清楚:BEV负责把道路和目标关系组织起来,Occupancy负责把三维空间里的“未知障碍”兜住。一个管交通语义,一个管物理存在。
图3|BEV与Occupancy不是替代关系,而是分工关系:一个管交通结构,一个管三维占用。
但Occupancy也不是免费午餐。体素分辨率越高,计算成本越重;语义类别越细,标注难度越大;远距离体素越稀疏,误检漏检越难控。系统要在“看见更多未知物”和“不要被虚假障碍吓得不敢走”之间找到平衡。很多智驾系统体验差,不是因为感知完全看不见,而是因为把不确定性处理得太粗:该刹不刹,不该刹乱刹。
六、无图NOA的核心不是“不要地图”,而是“在线补账能力”
“无图”是一个容易被误解的词。它不是不要地图,也不是车完全凭眼睛瞎走。更准确的说法是:系统不再强依赖高精地图提供车道级先验,而是通过车端感知实时重建道路拓扑,并用导航地图、轻地图、历史轨迹、在线感知共同完成决策。
高精地图像一份提前画好的施工图。它精度高,但更新慢、维护贵、覆盖难。城市道路每天都在变化:施工围挡、临时改道、潮汐车道、事故占道、路口标线磨损。完全依赖高精地图,就像在今天的城市里拿着三个月前的商场导览图找出口。方向大概对,细节可能害死人。
BEV的意义在于让车辆具备“边开边记账”的能力:现场感知车道边界、车道线、路口结构、障碍物和交通参与者,再把这些信息变成规划可用的局部拓扑。据理想智能驾驶负责人公开访谈/媒体报道,AD Max 3.0 城市 NOA 使用静态 BEV、动态 BEV 和 Occupancy 网络,并描述其可实时感知和构建道路结构。
这里的难点不是识别一条车道线,而是重建一个可驾驶的道路语法系统:
图4|无图NOA不是“没地图”,而是车端必须实时补齐道路语法。
很多宣传把无图NOA讲成“地图依赖消失”。这说得过头。真实系统仍然需要导航地图、道路先验、历史经验和云端数据闭环。区别只是:高精地图不再是唯一骨架,车端感知开始承担更多实时建图和拓扑理解责任。
七、端到端不是取消BEV,而是改变BEV的位置
近两年行业喜欢讲“端到端”,有人把感知网络端到端叫端到端,有人把感知到规划叫端到端,有人把传感器输入到控制输出叫端到端。概念不拆开,讨论就会变成口号。
端到端真正带来的变化,是系统不再满足于“感知模块输出框、预测模块输出轨迹、规划模块手写规则”。它希望通过联合训练,让中间特征对最终驾驶目标更有用。BEV在这个过程中不会立刻消失,它更可能从“人工设计的感知结果层”转为“模型内部的空间记忆层”。这像公司组织架构变化。过去每个部门写报告,层层审批;现在老板希望跨部门协作,用一套经营目标牵引所有部门。但这不意味着财务账本消失了。财务账本可能不再以传统报表形式存在,却仍然嵌在经营系统里。BEV也是这样。即便未来系统弱化显式BEV输出,空间表征仍然绕不开。
小鹏官方在2025年披露正在研发720亿参数“小鹏世界基座模型”,并称未来通过云端蒸馏小模型部署到车端,同时提到10 EFLOPS算力和平均5天一次的云到端迭代周期(云端研发基础设施能力)。华为当前公开的ADS 5叙事强调WEWA 2.0、云端World Engine、车端World Action Model、CAS 5.0等体系,并明确其当前乘用车搭载的ADS仍为辅助驾驶功能,不能替代驾驶员。
这说明一个趋势:厂商叙事正在从“我用了哪种BEV网络”转向“我如何构建世界模型、行为模型和安全风险场”。但从工程角度看,这不是BEV被一刀砍掉,而是BEV的可见度下降了。它可能被Occupancy、latent world model、trajectory token、risk field等表达吸收,成为更大模型内部的一层空间骨架。
八、数据闭环:BEV量产能力的真正护城河
很多人谈BEV,只盯着网络结构。量产自动驾驶不是选一篇论文复现出来就结束。系统真正难的是:每天从海量车辆中发现失败场景,挖掘数据,自动标注,重训练,仿真回放,灰度发布,再观察线上效果。没有这个闭环,再漂亮的BEV结构也只是实验室样品。
自动驾驶的长尾问题像城市下水道。晴天看不见,暴雨时全暴露。一个异形施工车、一段反光护栏、一个被雨水遮住的车道线、一个逆行电动车,都可能让模型露馅。解决这些问题靠一次性设计不够,靠的是持续发现、持续修复、持续验证。
图5|BEV能力不是训练一次得到,而是在车队闭环中被反复修出来。
这也是为什么同样叫BEV,不同厂商体验差异很大。差别不只在模型结构,还在数据质量、标注体系、仿真平台、故障诊断、算力基础设施、OTA节奏和安全组织能力。没有车队闭环的BEV,就像没有病例库的医生,理论背得再熟,遇到各种病人的疑难杂症还是慌。
九、评价指标:NDS能说明论文能力,不能代表真实驾驶能力
公开基准有价值,但不能迷信。
nuScenes的NDS把mAP与五类TP误差合成一个综合检测指标,其中TP error会先转为TP score,即max(1 - TP_error, 0.0),mAP权重为5,五个TP score各权重为1,再归一化。nuScenes官方devkit也说明其检测匹配使用地面平面中心距离,而非传统3D IoU。
这类指标适合比较学术模型,但真实道路还要看更多东西:
一个模型可以在NDS上很好看,但在城市NOA里仍然犹豫、乱刹、错过路口、被加塞卡死。因为自动驾驶不是检测比赛,而是连续决策系统。感知只是输入,驾驶是闭环。
这就像篮球运动员体测数据很好,不代表比赛一定能赢。弹跳、臂展、百米速度都有用,但临场判断、团队配合、抗压能力才决定关键球怎么打。
十、传感器融合:不是堆硬件,而是给系统留退路
BEV天然适合多传感器融合,但融合不是把所有数据倒进一个锅里乱炖。摄像头、激光雷达、毫米波雷达各有强项,也各有短板。
摄像头语义丰富,能看懂车道线、红绿灯、标志牌,但怕强光、雨雾、夜间低照。激光雷达几何直接,能给出高质量距离和轮廓,但成本、布置、雨雾干扰和远距稀疏都是问题。毫米波雷达速度稳定,恶劣天气下更可靠,但角分辨率和语义能力弱。
优秀融合系统不是追求“传感器越多越好”,而是追求故障独立性和信息互补性。一个传感器犯错时,另一个传感器能不能拉住系统?某个分支置信度下降时,规划是否能降级?这才是量产系统关心的问题。
把BEV看成一个“融合容器”还不够。它更像一个仲裁法庭:不同传感器提交证据,系统要判断证据之间是否冲突,哪个更可信,冲突时如何保守处理。只做特征拼接,不做置信度管理和故障诊断,融合系统反而会把错误放大。
十一、BEV系统真正的难点:时间
很多介绍BEV的文章只讲空间,不讲时间。驾驶不是拍照,是看电影。单帧图像很难判断目标速度,很难恢复短暂遮挡,也很难理解行为意图。一个骑行人是否要横穿马路,不能只看当前位置;要看他过去几秒的速度、头部朝向、横向位移、与路口关系。BEV如果没有时序记忆,只是一张静态账本;有了时序,才变成流水账。
BEVFormer引入Temporal Self-Attention来递归融合历史BEV信息,这正是其价值之一。
在量产系统里,时序建模还要面对更麻烦的问题:自车运动补偿、传感器时间戳同步、历史特征缓存、遮挡目标生命周期管理、误检目标遗忘机制。系统既不能太健忘,也不能太念旧。忘得太快,遮挡一秒目标就丢;记得太久,已经离开的障碍物还在BEV里阴魂不散。
这像开车时记忆后视镜里的摩托车,不能每次视线离开就当它不存在,也不能十秒后还假设它在原地。时序模型的本质,是让机器学会“合理记住”和“及时放下”。
十二、BEV的未来:不会消失,但会变得不那么显眼
未来几年,BEV大概率不会以今天这种显式形式永远占据中心位置。更高阶的系统会把BEV、Occupancy、语义地图、轨迹token、风险场、世界模型融合进统一的latent representation。对外讲法可能变成世界模型、VLA、端到端、行为模型;但只要车辆还在物理空间里运动,只要规划还需要知道哪里能走、哪里不能走、谁会撞上来,空间表征就不会消失。
BEV会像操作系统里的文件系统。普通用户不关心它,开发者离不开它。它可能不再被包装成卖点,却仍然是系统组织世界的底层方式之一。
未来竞争不会停留在“谁用了BEV”,真正要问的是:
谁能把空间表达做得足够准确,谁能把不确定性管理得足够稳,谁能用车队数据快速修复长尾问题,谁能在有限车端算力内给出低时延决策,谁才有机会把NOA从“演示能力”变成“日常工具”。
图6|BEV之后的竞争,不是单一网络结构竞争,而是空间表达、数据闭环、车端效率和安全体系的综合竞争。
十三、核心判断
BEV不是自动驾驶的终点,也不是过时的中间产物。它是自动驾驶从感知模块走向系统工程时绕不开的一座桥。
这座桥的一端连着多传感器输入:像素、点云、雷达、地图、历史帧。另一端连着驾驶决策:跟车、变道、让行、绕障、停车、避险。桥本身不负责把车开好,但桥修得不好,后面的规划和控制都会踩空。
BEV只是统一空间表达,真正的能力来自传感器、网络结构、时序记忆、数据闭环和安全策略的系统协同。端到端可能弱化显式BEV输出,但不会取消空间组织。自动驾驶不是聊天机器人,它要在高速运动中避开真实物体。只要物理世界还存在距离、速度、占用和碰撞,空间表征就仍然是底层必需品。
更冷静的判断是:
BEV正在从“显式俯视特征图”演变为“时空世界模型中的空间骨架”。 Occupancy让它从二维地面扩展到三维占用。 端到端让它从人工设计接口转向隐式中间表征。 数据闭环让它从论文方法变成量产能力。 安全体系决定它能不能从功能演示走向真实可用。
自动驾驶真正的难题,从来不是“能不能生成一张BEV图”,而是这张空间账本能否在雨夜、施工、遮挡、加塞、误标线、临时改道、传感器退化和用户误操作中,仍然足够稳、足够快、足够保守,也足够果断。
这才是BEV的工程真相。不是上帝视角,是机器驾驶在混乱现实中勉强维持理性的方式。