当前位置：首页>自动驾驶>鸟瞰图(BEV)感知技术综述:自动驾驶的＂上帝视角＂

鸟瞰图(BEV)感知技术综述:自动驾驶的＂上帝视角＂

2026-05-17 18:54:42

摘要

BEV，Bird’s Eye View，常被翻译成“鸟瞰图”。这个名字很容易误导人。它听起来像一张俯视图，像游戏里的小地图，像驾驶系统突然获得了某种“上帝视角”，工程视角来看其最大价值不在于此。

自动驾驶系统最怕的不是“看不见”，而是“看见了却无法统一理解”。摄像头看到的是像素，激光雷达给的是点云，毫米波雷达给的是稀疏目标和速度，地图给的是先验拓扑，规划模块需要的是可通行空间、风险边界和未来轨迹。如果没有统一的中间表达，这些信息就像不同部门各自写账：销售用人民币，财务用美元，仓库用件数，老板要利润。BEV的工程意义，就是把这些账统一成同一本总账。BEV真正的价值也在于此，把摄像头、激光雷达、毫米波雷达、历史帧、道路拓扑和目标状态，统一到以自车为中心的空间坐标系中。

但BEV也不是万能钥匙。它不能真正“看穿遮挡”，不能消灭标定误差，也不能自动带来无图NOA。它只是把自动驾驶系统从“多路感知各说各话”推进到“空间表达统一协作”的阶段。真正决定系统能力上限的，是感知、时序记忆、预测规划、数据闭环、算力预算、传感器冗余与安全策略之间的艰难权衡。

关键词：BEV；自动驾驶；Occupancy；端到端；无图NOA；时空建模；数据闭环

一、BEV本质：不是一张图，而是公共语言

自动驾驶系统为什么需要BEV？

车辆行驶在三维世界里，但摄像头给的是二维图像。二维图像有天然缺陷：近大远小、遮挡堆叠、尺度歧义、距离不直观、跨相机目标难关联。一辆车从左前摄像头进入前视摄像头，像素层面看是两个目标；在道路空间里，它其实是同一个目标沿连续轨迹移动。人类大脑可以自然完成这种空间补全，机器不行，机器需要一个可计算的空间工作台，BEV就是这个工作台。

它把不同传感器的信息投到以自车为中心的空间坐标系里，让系统在同一个尺度下思考几个关键问题：哪里有车，哪里有人，哪里能走，哪里不能走，哪里可能突然冒出风险，未来几秒哪些目标会和自车产生冲突。

图1｜BEV在自动驾驶系统中的真实位置：它不是终点，而是感知、预测、规划之间的中间账本。

二、工程创新不在“投影”，在“空间账本如何可靠”

早期BEV可以粗略理解为几何投影：把摄像头图像按相机内外参映射到地面平面。这类方法的代表是IPM，Inverse Perspective Mapping，逆透视变换，应用场景为低速泊车、环视拼接、地面纹理映射。但工程上暴露的问题也很明显：只要地面不平、相机俯仰变化、目标有高度，投影就会变形。

深度学习之后，BEV的核心矛盾从“怎么投影”变成“怎么从不完整观测中恢复空间结构”。LSS提出的Lift-Splat-Shoot路线，核心不是简单画俯视图，而是把每个相机图像的特征沿深度方向“抬升”成视锥体特征，再聚合到BEV网格中。

BEVFormer则进一步引入预设BEV Query，通过空间Cross-Attention和时间Self-Attention，从多摄像头、多时序图像中学习统一BEV表示，并在nuScenes test上报告了56.9% NDS（multi-camera / camera-based 3D perception），较此前最佳方法提升9.0个百分点。

BEVDepth抓住了更工程化的痛点：相机BEV方法的深度估计并不可靠，因此引入显式深度监督、camera-aware depth estimation、Depth Refinement Module和高效体素池化，nuScenes test报告了60.9% NDS（camera-based 3D detection）。

这些方法共同方向不是“让BEV更像图”，而是让系统更稳定地回答空间问题。

技术路线	工程比喻	真正解决的问题	最大代价	典型风险
IPM几何投影	用尺子把照片摊成地图	低成本获得地面俯视关系	依赖平地假设和精确标定	坡道、颠簸、目标高度导致畸变
LSS类depth distribution 的 BEV 表征学习路线	给每个像素装一部“深度电梯”	从图像特征恢复空间位置	深度分布估计成本高	远距深度不稳，误差会投到BEV中
BEVFormer类Query路线	塔台调度员按区域主动索取信息	多相机、多时序特征聚合	注意力计算复杂，部署压力大	Query采样失败或时序漂移
BEVDepth类深度增强路线	给深度电梯加校准尺	提升相机3D检测可靠性	需要深度监督与更复杂训练	泛化到新相机/新场景需谨慎
Occupancy路线	把世界切成3D仓库格子	表达通用障碍物和非标准目标	体素计算与标注成本高	语义细节、长尾障碍物仍难

看清这张表，才能理解BEV发展为什么不是单线升级。每条路线都在还债：IPM还几何假设的债，LSS还深度缺失的债，Transformer还跨视角关联的债，Occupancy还三维世界表达不足的债。工程创新从来不是“换个更大的模型”这么简单，而是选择哪笔债最值得先还。

三、BEV的第一层权衡：精度与时延

自动驾驶不是离线刷榜。论文可以等模型跑完，量产车不能。

感知系统每增加一点空间表达能力，都要付出算力、显存、时延和功耗成本。如果BEV网格分辨率 X、Y 两个方向的空间分辨率同时提高一倍，BEV 网格 cell 数约增加 4 倍；若扩展到 3D Occupancy，X/Y/Z 三个方向同时翻倍，体素数约增加 8 倍。；再叠加多相机、多帧、多任务头，推理链路很快变成车端芯片的压力测试。

这就像修城市道路，当然希望每条路都修成八车道，但城市没有无限土地，财政也不是无限。自动驾驶芯片上的TOPS、内存带宽和热设计功耗，就是这座城市的土地和财政。

图2｜BEV系统中的核心工程三角：更准、更快、更便宜，不可能同时无限提升。

这也是为什么工程系统经常采用“非均匀资源分配”：近处区域用更高分辨率，远处区域用更低分辨率；对规划相关区域保留更多特征，对无关区域压缩；动态目标保留时序记忆，静态背景降低更新频率。高级系统不是盲目堆算力，而是知道哪些信息值得花钱。

四、BEV的第二层权衡：统一表达与信息损失

BEV最大的价值是统一表达，但统一表达本身也会带来损失。

摄像头图像里有丰富纹理：交通灯状态、地面箭头、路牌文字、行人姿态、警察手势。激光雷达有几何轮廓，但语义贫弱。毫米波雷达速度敏感，但空间稀疏。把它们都压进BEV，必然要选择保留什么、舍弃什么。

BEV不是把世界原封不动装进系统，而是一次战略性压缩。压缩得好，系统获得规划所需的关键状态；压缩得差，细节在中间层被磨掉，下游规划再聪明也补不回来。

原始信息	BEV中容易保留	BEV中容易损失	工程补救方式
车辆位置	中心点、朝向、尺寸	细粒度姿态变化	目标级跟踪、时序滤波
行人	位置、速度	手势、头部朝向、意图	图像分支保留细粒度语义
车道线	拓扑、边界	被遮挡/磨损区域的连续性	在线地图重建、时序补全
红绿灯	空间关联	灯色小目标细节	独立交通灯检测头
障碍物	占用区域	材质、可移动性	Occupancy+语义分类
施工区域	几何边界	临时标识含义	多模态语义理解

真正的系统设计不会把所有任务都塞进BEV。它会让BEV承担“空间总账”的职责，同时保留一些图像域、目标域或语言域分支，专门处理BEV不擅长的细节。

五、BEV与Occupancy：从地面棋盘到三维仓库

BEV擅长表达地面平面附近的交通参与者和道路结构，但真实世界不是一张棋盘。它有低矮石墩、悬空杆件、侧翻车辆、施工围挡、异形障碍物、打开的车门、被风吹起的塑料袋。很多东西不属于标准检测类别，却会影响驾驶安全。

Occupancy的出现，就是为了补这块短板。它不急着判断“这是什么”，而是先判断“这里有没有东西”。这像仓库管理员不一定知道每个箱子里装的是螺丝还是衣服，但他必须知道哪个货架格子被占了，叉车不能撞上去。

理想汽车在AD Max 3.0公开技术叙事中明确提到静态BEV、动态BEV和Occupancy三类网络，并称通过NeRF增强Occupancy还原精度和细节，用于识别垃圾桶、施工牌等通用障碍物。这类路线的工程意义很清楚：BEV负责把道路和目标关系组织起来，Occupancy负责把三维空间里的“未知障碍”兜住。一个管交通语义，一个管物理存在。

图3｜BEV与Occupancy不是替代关系，而是分工关系：一个管交通结构，一个管三维占用。

但Occupancy也不是免费午餐。体素分辨率越高，计算成本越重；语义类别越细，标注难度越大；远距离体素越稀疏，误检漏检越难控。系统要在“看见更多未知物”和“不要被虚假障碍吓得不敢走”之间找到平衡。很多智驾系统体验差，不是因为感知完全看不见，而是因为把不确定性处理得太粗：该刹不刹，不该刹乱刹。

六、无图NOA的核心不是“不要地图”，而是“在线补账能力”

“无图”是一个容易被误解的词。它不是不要地图，也不是车完全凭眼睛瞎走。更准确的说法是：系统不再强依赖高精地图提供车道级先验，而是通过车端感知实时重建道路拓扑，并用导航地图、轻地图、历史轨迹、在线感知共同完成决策。

高精地图像一份提前画好的施工图。它精度高，但更新慢、维护贵、覆盖难。城市道路每天都在变化：施工围挡、临时改道、潮汐车道、事故占道、路口标线磨损。完全依赖高精地图，就像在今天的城市里拿着三个月前的商场导览图找出口。方向大概对，细节可能害死人。

BEV的意义在于让车辆具备“边开边记账”的能力：现场感知车道边界、车道线、路口结构、障碍物和交通参与者，再把这些信息变成规划可用的局部拓扑。据理想智能驾驶负责人公开访谈/媒体报道，AD Max 3.0 城市 NOA 使用静态 BEV、动态 BEV 和 Occupancy 网络，并描述其可实时感知和构建道路结构。

这里的难点不是识别一条车道线，而是重建一个可驾驶的道路语法系统：

图4｜无图NOA不是“没地图”，而是车端必须实时补齐道路语法。

很多宣传把无图NOA讲成“地图依赖消失”。这说得过头。真实系统仍然需要导航地图、道路先验、历史经验和云端数据闭环。区别只是：高精地图不再是唯一骨架，车端感知开始承担更多实时建图和拓扑理解责任。

七、端到端不是取消BEV，而是改变BEV的位置

近两年行业喜欢讲“端到端”，有人把感知网络端到端叫端到端，有人把感知到规划叫端到端，有人把传感器输入到控制输出叫端到端。概念不拆开，讨论就会变成口号。

端到端真正带来的变化，是系统不再满足于“感知模块输出框、预测模块输出轨迹、规划模块手写规则”。它希望通过联合训练，让中间特征对最终驾驶目标更有用。BEV在这个过程中不会立刻消失，它更可能从“人工设计的感知结果层”转为“模型内部的空间记忆层”。这像公司组织架构变化。过去每个部门写报告，层层审批；现在老板希望跨部门协作，用一套经营目标牵引所有部门。但这不意味着财务账本消失了。财务账本可能不再以传统报表形式存在，却仍然嵌在经营系统里。BEV也是这样。即便未来系统弱化显式BEV输出，空间表征仍然绕不开。

小鹏官方在2025年披露正在研发720亿参数“小鹏世界基座模型”，并称未来通过云端蒸馏小模型部署到车端，同时提到10 EFLOPS算力和平均5天一次的云到端迭代周期（云端研发基础设施能力）。华为当前公开的ADS 5叙事强调WEWA 2.0、云端World Engine、车端World Action Model、CAS 5.0等体系，并明确其当前乘用车搭载的ADS仍为辅助驾驶功能，不能替代驾驶员。

这说明一个趋势：厂商叙事正在从“我用了哪种BEV网络”转向“我如何构建世界模型、行为模型和安全风险场”。但从工程角度看，这不是BEV被一刀砍掉，而是BEV的可见度下降了。它可能被Occupancy、latent world model、trajectory token、risk field等表达吸收，成为更大模型内部的一层空间骨架。

八、数据闭环：BEV量产能力的真正护城河

很多人谈BEV，只盯着网络结构。量产自动驾驶不是选一篇论文复现出来就结束。系统真正难的是：每天从海量车辆中发现失败场景，挖掘数据，自动标注，重训练，仿真回放，灰度发布，再观察线上效果。没有这个闭环，再漂亮的BEV结构也只是实验室样品。

自动驾驶的长尾问题像城市下水道。晴天看不见，暴雨时全暴露。一个异形施工车、一段反光护栏、一个被雨水遮住的车道线、一个逆行电动车，都可能让模型露馅。解决这些问题靠一次性设计不够，靠的是持续发现、持续修复、持续验证。

图5｜BEV能力不是训练一次得到，而是在车队闭环中被反复修出来。

这也是为什么同样叫BEV，不同厂商体验差异很大。差别不只在模型结构，还在数据质量、标注体系、仿真平台、故障诊断、算力基础设施、OTA节奏和安全组织能力。没有车队闭环的BEV，就像没有病例库的医生，理论背得再熟，遇到各种病人的疑难杂症还是慌。

九、评价指标：NDS能说明论文能力，不能代表真实驾驶能力

公开基准有价值，但不能迷信。

nuScenes的NDS把mAP与五类TP误差合成一个综合检测指标，其中TP error会先转为TP score，即max(1 - TP_error, 0.0)，mAP权重为5，五个TP score各权重为1，再归一化。nuScenes官方devkit也说明其检测匹配使用地面平面中心距离，而非传统3D IoU。

这类指标适合比较学术模型，但真实道路还要看更多东西：

指标类型	能衡量什么	衡量不了什么
NDS/mAP	目标检测整体质量	规划是否安全、舒适、果断
mATE	目标中心位置误差	拓扑理解是否正确
mAOE	朝向估计误差	行为意图是否判断正确
mAVE	速度估计误差	加塞、博弈、遮挡恢复能力
BEV mIoU	道路/语义分割质量	复杂路口可通行关系
Occupancy IoU	占用空间重建	虚假障碍导致的体验问题
接管率	用户层面可靠性	接管定义和ODD差异很大
误刹率	体验和安全平衡	长尾场景的漏刹风险
舒适性指标	加速度/jerk体验	极端场景安全边界

一个模型可以在NDS上很好看，但在城市NOA里仍然犹豫、乱刹、错过路口、被加塞卡死。因为自动驾驶不是检测比赛，而是连续决策系统。感知只是输入，驾驶是闭环。

这就像篮球运动员体测数据很好，不代表比赛一定能赢。弹跳、臂展、百米速度都有用，但临场判断、团队配合、抗压能力才决定关键球怎么打。

十、传感器融合：不是堆硬件，而是给系统留退路

BEV天然适合多传感器融合，但融合不是把所有数据倒进一个锅里乱炖。摄像头、激光雷达、毫米波雷达各有强项，也各有短板。

摄像头语义丰富，能看懂车道线、红绿灯、标志牌，但怕强光、雨雾、夜间低照。激光雷达几何直接，能给出高质量距离和轮廓，但成本、布置、雨雾干扰和远距稀疏都是问题。毫米波雷达速度稳定，恶劣天气下更可靠，但角分辨率和语义能力弱。

优秀融合系统不是追求“传感器越多越好”，而是追求故障独立性和信息互补性。一个传感器犯错时，另一个传感器能不能拉住系统？某个分支置信度下降时，规划是否能降级？这才是量产系统关心的问题。

传感器	最擅长	最怕	在BEV中的角色
摄像头	语义、纹理、交通元素	光照、天气、深度歧义	提供主语义特征
激光雷达	几何、距离、轮廓	成本、稀疏、天气衰减	提供深度锚点和障碍物边界
毫米波雷达	速度、距离、全天候	横向分辨率低、目标稀疏	提供动态目标补充
IMU/轮速	自车运动估计	累积误差	支撑时序对齐
地图/导航	路网先验	更新滞后	提供全局意图和道路约束

把BEV看成一个“融合容器”还不够。它更像一个仲裁法庭：不同传感器提交证据，系统要判断证据之间是否冲突，哪个更可信，冲突时如何保守处理。只做特征拼接，不做置信度管理和故障诊断，融合系统反而会把错误放大。

十一、BEV系统真正的难点：时间

很多介绍BEV的文章只讲空间，不讲时间。驾驶不是拍照，是看电影。单帧图像很难判断目标速度，很难恢复短暂遮挡，也很难理解行为意图。一个骑行人是否要横穿马路，不能只看当前位置；要看他过去几秒的速度、头部朝向、横向位移、与路口关系。BEV如果没有时序记忆，只是一张静态账本；有了时序，才变成流水账。

BEVFormer引入Temporal Self-Attention来递归融合历史BEV信息，这正是其价值之一。

在量产系统里，时序建模还要面对更麻烦的问题：自车运动补偿、传感器时间戳同步、历史特征缓存、遮挡目标生命周期管理、误检目标遗忘机制。系统既不能太健忘，也不能太念旧。忘得太快，遮挡一秒目标就丢；记得太久，已经离开的障碍物还在BEV里阴魂不散。

这像开车时记忆后视镜里的摩托车，不能每次视线离开就当它不存在，也不能十秒后还假设它在原地。时序模型的本质，是让机器学会“合理记住”和“及时放下”。

十二、BEV的未来：不会消失，但会变得不那么显眼

未来几年，BEV大概率不会以今天这种显式形式永远占据中心位置。更高阶的系统会把BEV、Occupancy、语义地图、轨迹token、风险场、世界模型融合进统一的latent representation。对外讲法可能变成世界模型、VLA、端到端、行为模型；但只要车辆还在物理空间里运动，只要规划还需要知道哪里能走、哪里不能走、谁会撞上来，空间表征就不会消失。

BEV会像操作系统里的文件系统。普通用户不关心它，开发者离不开它。它可能不再被包装成卖点，却仍然是系统组织世界的底层方式之一。

未来竞争不会停留在“谁用了BEV”，真正要问的是：

谁能把空间表达做得足够准确，谁能把不确定性管理得足够稳，谁能用车队数据快速修复长尾问题，谁能在有限车端算力内给出低时延决策，谁才有机会把NOA从“演示能力”变成“日常工具”。

图6｜BEV之后的竞争，不是单一网络结构竞争，而是空间表达、数据闭环、车端效率和安全体系的综合竞争。

十三、核心判断

BEV不是自动驾驶的终点，也不是过时的中间产物。它是自动驾驶从感知模块走向系统工程时绕不开的一座桥。

这座桥的一端连着多传感器输入：像素、点云、雷达、地图、历史帧。另一端连着驾驶决策：跟车、变道、让行、绕障、停车、避险。桥本身不负责把车开好，但桥修得不好，后面的规划和控制都会踩空。

BEV只是统一空间表达，真正的能力来自传感器、网络结构、时序记忆、数据闭环和安全策略的系统协同。端到端可能弱化显式BEV输出，但不会取消空间组织。自动驾驶不是聊天机器人，它要在高速运动中避开真实物体。只要物理世界还存在距离、速度、占用和碰撞，空间表征就仍然是底层必需品。

更冷静的判断是：

BEV正在从“显式俯视特征图”演变为“时空世界模型中的空间骨架”。 Occupancy让它从二维地面扩展到三维占用。端到端让它从人工设计接口转向隐式中间表征。数据闭环让它从论文方法变成量产能力。安全体系决定它能不能从功能演示走向真实可用。

自动驾驶真正的难题，从来不是“能不能生成一张BEV图”，而是这张空间账本能否在雨夜、施工、遮挡、加塞、误标线、临时改道、传感器退化和用户误操作中，仍然足够稳、足够快、足够保守，也足够果断。

这才是BEV的工程真相。不是上帝视角，是机器驾驶在混乱现实中勉强维持理性的方式。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

鸟瞰图(BEV)感知技术综述:自动驾驶的＂上帝视角＂

摘要

一、BEV本质：不是一张图，而是公共语言

二、工程创新不在“投影”，在“空间账本如何可靠”

三、BEV的第一层权衡：精度与时延

四、BEV的第二层权衡：统一表达与信息损失

五、BEV与Occupancy：从地面棋盘到三维仓库

六、无图NOA的核心不是“不要地图”，而是“在线补账能力”

七、端到端不是取消BEV，而是改变BEV的位置

八、数据闭环：BEV量产能力的真正护城河

九、评价指标：NDS能说明论文能力，不能代表真实驾驶能力

十、传感器融合：不是堆硬件，而是给系统留退路

十一、BEV系统真正的难点：时间

十二、BEV的未来：不会消失，但会变得不那么显眼

十三、核心判断

最新文章

热门文章

随机文章

鸟瞰图(BEV)感知技术综述:自动驾驶的＂上帝视角＂

摘要

一、BEV本质：不是一张图，而是公共语言

二、工程创新不在“投影”，在“空间账本如何可靠”

三、BEV的第一层权衡：精度与时延

四、BEV的第二层权衡：统一表达与信息损失

五、BEV与Occupancy：从地面棋盘到三维仓库

六、无图NOA的核心不是“不要地图”，而是“在线补账能力”

七、端到端不是取消BEV，而是改变BEV的位置

八、数据闭环：BEV量产能力的真正护城河

九、评价指标：NDS能说明论文能力，不能代表真实驾驶能力

十、传感器融合：不是堆硬件，而是给系统留退路

十一、BEV系统真正的难点：时间

十二、BEV的未来：不会消失，但会变得不那么显眼

十三、核心判断

不是所有SUV都叫凯雷德:它很容易让人上头,但真不一定适合你现在下单

20万级真正满配运动SUV!昊铂S600开启预售

最新文章

热门文章

随机文章