从“像素理解”到“世界建模”,一场改变智驾范式的技术革命
你好,我是「汽车圆桌谈」的老朋友。上一期我们聊了智驾算法的整体进化史——从规则驱动到模块化,再到端到端和VLA大模型。今天,我们深入其中最关键的一次技术跃迁:BEV+Transformer。
你可能已经在各种新车发布会上听过这两个词:BEV、Transformer。听起来很高深,但它们解决的是一个非常朴素的问题:
如何让汽车像人一样“理解”周围的世界?
人开车时,大脑会把两只眼睛看到的画面融合成一个三维的空间认知——我知道左后方有辆车正在靠近,我知道前面那个路口的红灯还有5秒,我知道从当前车道变到最右侧需要穿过两条车道。
但汽车不一样。它有8-12个摄像头,每个摄像头看到的都是一张2D平面图。这些图片之间没有“空间关系”,就像你把12张不同角度的照片摆在桌子上,它们之间并没有形成一个统一的三维模型。
BEV+Transformer要做的事,就是把这12张2D照片,实时拼接成一张鸟瞰视角的3D地图。
今天这篇文章,我们把这项技术的来龙去脉彻底讲透:为什么需要它?它是怎么工作的?它和端到端是什么关系?
🔍 问题的本质:智驾到底要“理解”什么?
在聊BEV之前,我们先要问一个更根本的问题:智能驾驶感知算法,到底要解决什么问题?
地平线的开发者在一篇技术文章中给出了一个非常精准的概括。智驾感知不是要回答“画面里有什么”,而是要回答三个更困难的问题:
早期智驾感知算法停留在第一个问题的最低层次——“看懂画面里有什么”。这就像你看一张照片,知道照片里有辆车、有个人,但你不知道这辆车离你多远、它是朝你开过来还是远离你、它和你之间有没有障碍物。
这种“理解”的深度,对于一辆需要自主决策的车来说,远远不够。
📸 2D感知时代:从“能识别”开始,但止步于图像
最早一代智驾感知算法,高度继承了通用计算机视觉的发展成果。
典型流程是:摄像头拍下2D图像 → 深度学习模型(如YOLO、Faster R-CNN)在上面画框框 → 输出“这是一个行人”“那是一辆车”。
这一代算法解决了一个核心问题:让系统具备了“看懂画面”的能力。 它能稳定识别物体类别,能在复杂背景中找到目标,能在消费级算力上实时运行。这是必要的一步,没有这一步,后面的一切都无从谈起。
但它的局限是结构性的,不是靠堆算力能解决的:
- 没有真实几何:它只知道像素,不知道真实世界的距离和尺寸
- 多相机之间缺乏统一坐标系:左边摄像头看到的车,和右边摄像头看到的车,系统不知道是不是同一辆
- 所有空间关系只是投影结果:图像中一个物体“看起来”在另一个物体前面,但真实世界中可能正好相反
一位工程师的精辟总结是:Image-space感知并不真正理解世界,而是在理解像素。
这个问题在早期架构中,通常用“后融合”来勉强解决——每个摄像头独立识别,再把结果投影到世界坐标系里。但后融合的问题我们之前聊过:每个传感器独立处理时都会丢失大量信息,而且模块间的信息传递损耗不可避免。
🗺️ BEV的核心理念:统一的世界坐标系
BEV(Bird‘s Eye View,鸟瞰图) 的出现,就是为了从根本上解决这个问题。
BEV不是一种模型,而是一种世界表示方式。它的核心理念是:把所有传感器的感知结果,统一到一个从上往下看的俯视视角中。
为什么俯视视角这么重要?因为:
- 所有感知结果在同一个坐标系中:左摄像头看到的车、右摄像头看到的车、前摄像头看到的车道线,全部投影到BEV空间后,它们之间的位置关系一目了然
- 空间关系直观:在BEV中,物体之间的距离、车道线的走向、路口的结构,就像你看一张地图一样清晰
- 对规划和控制友好:下游的决策规划模块直接拿BEV特征作为输入,不需要做坐标转换
BEV的本质,是从“图像认知”到“世界建模”的范式迁移。它不再问“这张图里有什么”,而是问“这个世界在三维空间中是什么样的”。
🔄 第一代BEV:显式深度估计的困境
早期实现BEV的方式,依赖显式几何投影:
- 从2D图像中估计每个像素的深度(它离摄像头有多远)
- 利用相机标定参数,把2D像素+深度信息投影到3D空间
这个思路很直观,但它有一个致命问题:深度估计太难了。
从一张2D图像中精确估计每个像素的深度,本身就是个几乎不可能完成的任务。即便用深度学习来做,误差也很大。更糟的是,深度误差会在投影过程中被放大——初始差1米,投影到BEV后可能差3-5米。
而且,单帧BEV抖动明显——因为每一帧的深度估计都有随机误差,叠加在一起就像喝醉了酒的人在走路。早期的纯视觉BEV方案,实用性非常有限。
🚀 BEVFormer:让模型自己学会“投影”
转折点出现在2021-2022年。特斯拉率先在工业界展示了BEV+Transformer的组合,效果惊艳。国内也迅速跟进,理想、蔚来、小鹏、百度、地平线等纷纷推出基于BEVFormer的量产方案。
BEVFormer的核心思想是:不再显式计算深度,而是让模型自己学习BEV空间与图像空间之间的对应关系。
具体来说,BEVFormer引入了三个关键机制:
1. BEV Query
在BEV空间中预先定义一组“查询点”(比如每隔0.5米一个点)。每个查询点代表真实世界中的一个位置。
2. Spatial Cross-Attention
每个BEV查询点会去“问”所有摄像头图像:你们的画面里,有没有对应于我这个位置的特征?如果有,请把特征给我。
这就是Transformer的注意力机制在发挥作用。它不是硬编码投影公式,而是让模型自己学习“当我在BEV的这个位置时,我应该去看图像的哪一块区域”。
3. Temporal Self-Attention
BEVFormer还把历史帧的BEV特征也引入进来。当前时刻的BEV查询,不仅和当前图像交互,还和上一帧的BEV特征交互。
这解决了一个重要问题:时序一致性。当一辆车被短暂遮挡时,系统可以通过历史信息“记住”它的存在,而不是等它重新出现时才反应过来。
BEVFormer的效果:让camera-only的BEV感知在精度上第一次具备了竞争力。不再需要昂贵的激光雷达,纯视觉方案也能构建出相对准确的三维世界模型。
当然,BEVFormer也有代价。Transformer的计算复杂度很高,对显存和算力的消耗远大于传统CNN模型。这也是为什么高阶智驾都需要大算力芯片——光跑一个BEVFormer就要吃掉不少TOPS。
🔗 BEVFusion:多模态的进一步融合
纯视觉BEV虽然强大,但在极端天气、夜晚等场景下仍有局限。于是,BEVFusion的思路应运而生:
- Camera → BEV:提供丰富的语义信息(颜色、纹理、类别)
- LiDAR → BEV:提供精确的几何信息(距离、尺寸、形状)
- 在BEV空间完成特征级融合,而不是等到目标检测之后再融合
这种前融合方案的优势很明显:信息损失最小,多模态数据互补性强。摄像头语义强但几何不稳,激光雷达几何稳但语义弱——在BEV空间融合,两者取长补短。
英恒科技基于地平线征程®6发布的前融合感知方案,就是这一路线的典型代表。该方案搭配4D毫米波雷达和摄像头,在BEV+Transformer架构下实现了“软硬一体”的超融合感知,有效降低了感知架构的复杂度和延迟。
BEVFusion的代价是工程复杂度显著上升:多分支系统维护成本高,推理链路变长,对算力的要求也更高。
🧠 Transformer:为什么它是BEV的“最佳拍档”?
你可能已经注意到了,BEV的成功离不开Transformer。为什么是Transformer?
Transformer的核心机制是“注意力(Attention)” 。它让模型可以在处理某个位置的信息时,“关注”到序列中其他相关位置的信息。
在BEV场景中,这个能力至关重要:
- 空间注意力:BEV中的一个点,需要从多个摄像头图像中找到对应的区域。Transformer的Cross-Attention机制天然适合这个任务
- 时序注意力:当前时刻的BEV特征,需要和历史帧的信息“对齐”。Transformer的Self-Attention机制可以轻松建模这种时序依赖
相比之下,传统的CNN(卷积神经网络)擅长提取局部特征,但难以捕获长距离依赖。在自然语言处理领域,Transformer已经取代RNN成为主流;在计算机视觉领域,Vision Transformer(ViT)也正在蚕食CNN的领地。而BEV+Transformer,正是这场“架构大一统”在自动驾驶领域的集中体现。
一位业内人士形象地总结:BEV是统一的空间坐标系,Transformer是让这个坐标系变为现实的“注意力引擎”。
🔮 在端到端时代,BEV+Transformer过时了吗?
最后一个问题:我们上一期聊到,智驾算法正在从“模块化”走向“端到端”。那么,在端到端时代,BEV和Transformer还有用吗?
答案是:不仅有用,而且是端到端模型的“眼睛和骨架”。
我们需要澄清一个常见误解:端到端不是要把BEV和Transformer推倒重来,而是把原本分离的模块以更高效的方式整合进一个大神经网络中。
在当前的端到端解决方案中,BEV的角色发生了变化。它不再只是为了生成好看的感知图像给工程师看,而是作为一个特征容器(Feature Container)。多路摄像头的数据涌入模型后,系统在这个统一的BEV空间中进行特征叠加。这解决了多视角重叠、遮挡等问题,让模型在面对急弯、复杂路口时拥有了连贯的空间记忆。
Transformer则继续扮演“导演”的角色——负责决定哪些信息应该被保留、哪些应该被优先处理。在端到端模型中,Transformer的注意力机制解决了感知中的关键痛点:如何把不同位置、不同时刻的信息连接起来。通过这个机制,模型可以自主判断哪些场景特征对当前驾驶任务最重要。
更重要的是,当前端到端模型极度依赖Transformer来处理时序数据。驾驶不是静态的瞬间,而是一个连续的过程。Transformer像人类的短期记忆,能把过去几秒的特征信息串联起来,让模型具备预测能力——即使一个骑手被公交车遮挡了,系统仍能根据之前的观测推断他的大致位置和速度。
未来,BEV和Transformer还会继续进化。当前趋势是引入占用网络(Occupancy Network)——让模型不再关注“这个东西是什么”,而是关注“这个空间体素是否被占据”。这让端到端模型在面对施工区、散落物等不规则障碍物时更加鲁棒。
📝 一张图总结
为了帮你理清BEV+Transformer的技术演进,我把每个阶段的特征整理成了一张表:
| | | |
|---|
| 2D感知 | | | |
| 显式BEV | | | |
| BEVFormer | | | |
| BEVFusion | | | |
| 端到端中的BEV | | | |
✍️ 写在最后
BEV+Transformer的出现,让自动驾驶第一次拥有了统一的世界表示。
它不是终点——未来模型的名字可能会变,但它奠定的核心理念不会消失:在世界坐标系中建模、在时间维度中理解世界,这已经成为智驾感知不可逆的方向。
从“理解像素”到“理解三维空间”,我们离“让车像人一样理解世界”又近了一大步。
下期,我们将从感知层跨入一个新的维度——多模态与端到端。既然BEV+Transformer已经建立了统一的世界模型,下一步就是让这个模型直接输出驾驶决策。端到端是怎么实现“感知→决策”一体化的?特斯拉、华为、理想的方案有什么区别?欢迎继续关注「阿刁的智驾笔记」系列文章。
如果你觉得这篇文章帮你搞懂了BEV+Transformer的本质,点个在看,转发给那个好奇“自动驾驶怎么看路”的朋友。我们下期见!
本文为「汽车圆桌谈」原创。部分技术观点参考了地平线开发者社区、英恒科技、浙江大学综述论文及行业研究报告。