当前位置：首页>自动驾驶>BEV+Transformer——自动驾驶的“上帝视角”是如何炼成的

BEV+Transformer——自动驾驶的“上帝视角”是如何炼成的

2026-05-08 06:00:50

从“像素理解”到“世界建模”，一场改变智驾范式的技术革命

你好，我是「汽车圆桌谈」的老朋友。上一期我们聊了智驾算法的整体进化史——从规则驱动到模块化，再到端到端和VLA大模型。今天，我们深入其中最关键的一次技术跃迁：BEV+Transformer。

你可能已经在各种新车发布会上听过这两个词：BEV、Transformer。听起来很高深，但它们解决的是一个非常朴素的问题：

如何让汽车像人一样“理解”周围的世界？

人开车时，大脑会把两只眼睛看到的画面融合成一个三维的空间认知——我知道左后方有辆车正在靠近，我知道前面那个路口的红灯还有5秒，我知道从当前车道变到最右侧需要穿过两条车道。

但汽车不一样。它有8-12个摄像头，每个摄像头看到的都是一张2D平面图。这些图片之间没有“空间关系”，就像你把12张不同角度的照片摆在桌子上，它们之间并没有形成一个统一的三维模型。

BEV+Transformer要做的事，就是把这12张2D照片，实时拼接成一张鸟瞰视角的3D地图。

今天这篇文章，我们把这项技术的来龙去脉彻底讲透：为什么需要它？它是怎么工作的？它和端到端是什么关系？

🔍 问题的本质：智驾到底要“理解”什么？

在聊BEV之前，我们先要问一个更根本的问题：智能驾驶感知算法，到底要解决什么问题？

地平线的开发者在一篇技术文章中给出了一个非常精准的概括。智驾感知不是要回答“画面里有什么”，而是要回答三个更困难的问题：

世界在三维空间中是什么样的？
不同传感器看到的是否是同一个世界？
这个世界在时间维度上如何连续变化？

早期智驾感知算法停留在第一个问题的最低层次——“看懂画面里有什么”。这就像你看一张照片，知道照片里有辆车、有个人，但你不知道这辆车离你多远、它是朝你开过来还是远离你、它和你之间有没有障碍物。

这种“理解”的深度，对于一辆需要自主决策的车来说，远远不够。

📸 2D感知时代：从“能识别”开始，但止步于图像

最早一代智驾感知算法，高度继承了通用计算机视觉的发展成果。

典型流程是：摄像头拍下2D图像 → 深度学习模型（如YOLO、Faster R-CNN）在上面画框框 → 输出“这是一个行人”“那是一辆车”。

这一代算法解决了一个核心问题：让系统具备了“看懂画面”的能力。 它能稳定识别物体类别，能在复杂背景中找到目标，能在消费级算力上实时运行。这是必要的一步，没有这一步，后面的一切都无从谈起。

但它的局限是结构性的，不是靠堆算力能解决的：

没有真实几何：它只知道像素，不知道真实世界的距离和尺寸
多相机之间缺乏统一坐标系：左边摄像头看到的车，和右边摄像头看到的车，系统不知道是不是同一辆
所有空间关系只是投影结果：图像中一个物体“看起来”在另一个物体前面，但真实世界中可能正好相反

一位工程师的精辟总结是：Image-space感知并不真正理解世界，而是在理解像素。

这个问题在早期架构中，通常用“后融合”来勉强解决——每个摄像头独立识别，再把结果投影到世界坐标系里。但后融合的问题我们之前聊过：每个传感器独立处理时都会丢失大量信息，而且模块间的信息传递损耗不可避免。

🗺️ BEV的核心理念：统一的世界坐标系

BEV（Bird‘s Eye View，鸟瞰图） 的出现，就是为了从根本上解决这个问题。

BEV不是一种模型，而是一种世界表示方式。它的核心理念是：把所有传感器的感知结果，统一到一个从上往下看的俯视视角中。

为什么俯视视角这么重要？因为：

所有感知结果在同一个坐标系中：左摄像头看到的车、右摄像头看到的车、前摄像头看到的车道线，全部投影到BEV空间后，它们之间的位置关系一目了然
空间关系直观：在BEV中，物体之间的距离、车道线的走向、路口的结构，就像你看一张地图一样清晰
对规划和控制友好：下游的决策规划模块直接拿BEV特征作为输入，不需要做坐标转换

BEV的本质，是从“图像认知”到“世界建模”的范式迁移。它不再问“这张图里有什么”，而是问“这个世界在三维空间中是什么样的”。

🔄 第一代BEV：显式深度估计的困境

早期实现BEV的方式，依赖显式几何投影：

从2D图像中估计每个像素的深度（它离摄像头有多远）
利用相机标定参数，把2D像素+深度信息投影到3D空间
把3D空间中的点“拍平”到BEV俯视图

这个思路很直观，但它有一个致命问题：深度估计太难了。

从一张2D图像中精确估计每个像素的深度，本身就是个几乎不可能完成的任务。即便用深度学习来做，误差也很大。更糟的是，深度误差会在投影过程中被放大——初始差1米，投影到BEV后可能差3-5米。

而且，单帧BEV抖动明显——因为每一帧的深度估计都有随机误差，叠加在一起就像喝醉了酒的人在走路。早期的纯视觉BEV方案，实用性非常有限。

🚀 BEVFormer：让模型自己学会“投影”

转折点出现在2021-2022年。特斯拉率先在工业界展示了BEV+Transformer的组合，效果惊艳。国内也迅速跟进，理想、蔚来、小鹏、百度、地平线等纷纷推出基于BEVFormer的量产方案。

BEVFormer的核心思想是：不再显式计算深度，而是让模型自己学习BEV空间与图像空间之间的对应关系。

具体来说，BEVFormer引入了三个关键机制：

1. BEV Query

在BEV空间中预先定义一组“查询点”（比如每隔0.5米一个点）。每个查询点代表真实世界中的一个位置。

2. Spatial Cross-Attention

每个BEV查询点会去“问”所有摄像头图像：你们的画面里，有没有对应于我这个位置的特征？如果有，请把特征给我。

这就是Transformer的注意力机制在发挥作用。它不是硬编码投影公式，而是让模型自己学习“当我在BEV的这个位置时，我应该去看图像的哪一块区域”。

3. Temporal Self-Attention

BEVFormer还把历史帧的BEV特征也引入进来。当前时刻的BEV查询，不仅和当前图像交互，还和上一帧的BEV特征交互。

这解决了一个重要问题：时序一致性。当一辆车被短暂遮挡时，系统可以通过历史信息“记住”它的存在，而不是等它重新出现时才反应过来。

BEVFormer的效果：让camera-only的BEV感知在精度上第一次具备了竞争力。不再需要昂贵的激光雷达，纯视觉方案也能构建出相对准确的三维世界模型。

当然，BEVFormer也有代价。Transformer的计算复杂度很高，对显存和算力的消耗远大于传统CNN模型。这也是为什么高阶智驾都需要大算力芯片——光跑一个BEVFormer就要吃掉不少TOPS。

🔗 BEVFusion：多模态的进一步融合

纯视觉BEV虽然强大，但在极端天气、夜晚等场景下仍有局限。于是，BEVFusion的思路应运而生：

Camera → BEV：提供丰富的语义信息（颜色、纹理、类别）
LiDAR → BEV：提供精确的几何信息（距离、尺寸、形状）
在BEV空间完成特征级融合，而不是等到目标检测之后再融合

这种前融合方案的优势很明显：信息损失最小，多模态数据互补性强。摄像头语义强但几何不稳，激光雷达几何稳但语义弱——在BEV空间融合，两者取长补短。

英恒科技基于地平线征程®6发布的前融合感知方案，就是这一路线的典型代表。该方案搭配4D毫米波雷达和摄像头，在BEV+Transformer架构下实现了“软硬一体”的超融合感知，有效降低了感知架构的复杂度和延迟。

BEVFusion的代价是工程复杂度显著上升：多分支系统维护成本高，推理链路变长，对算力的要求也更高。

🧠 Transformer：为什么它是BEV的“最佳拍档”？

你可能已经注意到了，BEV的成功离不开Transformer。为什么是Transformer？

Transformer的核心机制是“注意力（Attention）” 。它让模型可以在处理某个位置的信息时，“关注”到序列中其他相关位置的信息。

在BEV场景中，这个能力至关重要：

空间注意力：BEV中的一个点，需要从多个摄像头图像中找到对应的区域。Transformer的Cross-Attention机制天然适合这个任务
时序注意力：当前时刻的BEV特征，需要和历史帧的信息“对齐”。Transformer的Self-Attention机制可以轻松建模这种时序依赖

相比之下，传统的CNN（卷积神经网络）擅长提取局部特征，但难以捕获长距离依赖。在自然语言处理领域，Transformer已经取代RNN成为主流；在计算机视觉领域，Vision Transformer（ViT）也正在蚕食CNN的领地。而BEV+Transformer，正是这场“架构大一统”在自动驾驶领域的集中体现。

一位业内人士形象地总结：BEV是统一的空间坐标系，Transformer是让这个坐标系变为现实的“注意力引擎”。

🔮 在端到端时代，BEV+Transformer过时了吗？

最后一个问题：我们上一期聊到，智驾算法正在从“模块化”走向“端到端”。那么，在端到端时代，BEV和Transformer还有用吗？

答案是：不仅有用，而且是端到端模型的“眼睛和骨架”。

我们需要澄清一个常见误解：端到端不是要把BEV和Transformer推倒重来，而是把原本分离的模块以更高效的方式整合进一个大神经网络中。

在当前的端到端解决方案中，BEV的角色发生了变化。它不再只是为了生成好看的感知图像给工程师看，而是作为一个特征容器（Feature Container）。多路摄像头的数据涌入模型后，系统在这个统一的BEV空间中进行特征叠加。这解决了多视角重叠、遮挡等问题，让模型在面对急弯、复杂路口时拥有了连贯的空间记忆。

Transformer则继续扮演“导演”的角色——负责决定哪些信息应该被保留、哪些应该被优先处理。在端到端模型中，Transformer的注意力机制解决了感知中的关键痛点：如何把不同位置、不同时刻的信息连接起来。通过这个机制，模型可以自主判断哪些场景特征对当前驾驶任务最重要。

更重要的是，当前端到端模型极度依赖Transformer来处理时序数据。驾驶不是静态的瞬间，而是一个连续的过程。Transformer像人类的短期记忆，能把过去几秒的特征信息串联起来，让模型具备预测能力——即使一个骑手被公交车遮挡了，系统仍能根据之前的观测推断他的大致位置和速度。

未来，BEV和Transformer还会继续进化。当前趋势是引入占用网络（Occupancy Network）——让模型不再关注“这个东西是什么”，而是关注“这个空间体素是否被占据”。这让端到端模型在面对施工区、散落物等不规则障碍物时更加鲁棒。

📝 一张图总结

为了帮你理清BEV+Transformer的技术演进，我把每个阶段的特征整理成了一张表：

阶段	核心方法	优点	局限
2D感知	在2D图像上画框	成熟、快速、可识别类别	无几何信息、无空间统一坐标系
显式BEV	估计深度+几何投影	概念直观	深度估计误差被放大、时序抖动严重
BEVFormer	Transformer隐式学习投影	精度高、时序稳定	计算量大、工程部署成本高
BEVFusion	BEV空间多模态特征融合	信息损失少、互补性强	多分支系统复杂、推理延迟增加
端到端中的BEV	作为特征容器参与联合训练	无损传递特征、具备预测能力	仍在快速演进中

✍️ 写在最后

BEV+Transformer的出现，让自动驾驶第一次拥有了统一的世界表示。

它不是终点——未来模型的名字可能会变，但它奠定的核心理念不会消失：在世界坐标系中建模、在时间维度中理解世界，这已经成为智驾感知不可逆的方向。

从“理解像素”到“理解三维空间”，我们离“让车像人一样理解世界”又近了一大步。

下期，我们将从感知层跨入一个新的维度——多模态与端到端。既然BEV+Transformer已经建立了统一的世界模型，下一步就是让这个模型直接输出驾驶决策。端到端是怎么实现“感知→决策”一体化的？特斯拉、华为、理想的方案有什么区别？欢迎继续关注「阿刁的智驾笔记」系列文章。

如果你觉得这篇文章帮你搞懂了BEV+Transformer的本质，点个在看，转发给那个好奇“自动驾驶怎么看路”的朋友。我们下期见！

本文为「汽车圆桌谈」原创。部分技术观点参考了地平线开发者社区、英恒科技、浙江大学综述论文及行业研究报告。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

BEV+Transformer——自动驾驶的“上帝视角”是如何炼成的

🔍 问题的本质：智驾到底要“理解”什么？

📸 2D感知时代：从“能识别”开始，但止步于图像

🗺️ BEV的核心理念：统一的世界坐标系

🔄 第一代BEV：显式深度估计的困境

🚀 BEVFormer：让模型自己学会“投影”

🔗 BEVFusion：多模态的进一步融合

🧠 Transformer：为什么它是BEV的“最佳拍档”？

🔮 在端到端时代，BEV+Transformer过时了吗？

📝 一张图总结

✍️ 写在最后

最新文章

热门文章

随机文章

BEV+Transformer——自动驾驶的“上帝视角”是如何炼成的

🔍 问题的本质：智驾到底要“理解”什么？

📸 2D感知时代：从“能识别”开始，但止步于图像

🗺️ BEV的核心理念：统一的世界坐标系

🔄 第一代BEV：显式深度估计的困境

🚀 BEVFormer：让模型自己学会“投影”

🔗 BEVFusion：多模态的进一步融合

🧠 Transformer：为什么它是BEV的“最佳拍档”？

🔮 在端到端时代，BEV+Transformer过时了吗？

📝 一张图总结

✍️ 写在最后

适合露营的SUV|五一户外撒欢,这些座驾承包你的精致野营

5米长纯电SUV来袭!奥迪E7X将于5月8日预售:最大续航751km

最新文章

热门文章

随机文章