自动驾驶算法架构的演进,直接决定了传感器数据融合发生的层级。
编辑
随着算法从“规则驱动”转向“数据驱动”,融合点(Fusion Point)在数据处理流程中不断前移,从最末端的“结果融合”一路推向最前端的“原始特征融合”。
以下是各阶段对融合层级的具体要求:
第一阶段:模块化规则算法 —— 目标级后融合 (Object-Level / Late Fusion)
- 每个传感器(Camera, Radar, LiDAR)必须是智能传感器 (Smart Sensor)。
- 传感器内部必须自带 ECU/ISP,先跑一遍自己的检测算法,吐出目标列表 (Object List)。
- Camera 说:“前方 50 米有辆车 (ID:1)”。
- Radar 说:“前方 52 米有个障碍物 (ID:2)”。
- 融合算法(在域控 CPU 上跑卡尔曼滤波)负责把 ID:1 和 ID:2 关联起来,加权平均输出最终位置。
- 为什么是这级? 早期算力不足,无法处理多路原始数据,且责任划分明确(Radar 供应商对 Radar 结果负责)。
第二阶段:多任务联合感知 (HydraNet) —— BEV 特征级融合 (Feature-Level / Middle Fusion)
- 融合层级: 中期 (Middle Fusion),通常在 BEV (Bird's Eye View) 空间进行。
- Camera: 输出图像特征图 (Feature Map) 或 PV (Perspective View) 特征。
- LiDAR: 输出体素化特征 (Voxel Features)。
- Radar: 输出点云 (Point Cloud) 而非目标列表。
- 将 Camera 的 2D 特征投影到 3D BEV 空间。
- 将 LiDAR/Radar 的 3D 特征对齐到同一个 3D BEV 空间。
- 在这个统一的“上帝视角”特征图上进行 Concat (拼接) 或 Cross-Attention (交叉注意力)。
- One Model Fits All: 融合后的特征送入同一个 Head,直接输出最终融合结果。
- 为什么是这级? 为了解决跨模态的信息互补(如:LiDAR 测距准但不知颜色,Camera 懂语义但测距差),BEV 是最佳的统一表示空间。
第三阶段:感知决策一体化 (UniAD) —— 全链路特征交互 (Full-Stack Feature Interaction)
- 融合层级: 特征级融合 + 任务间 Query 融合。
- 传感器要求: 同第二阶段,但对数据的时间同步性和特征的语义一致性要求更高。
- 跨任务融合: 规划模块(Planning)不仅看预测轨迹,还会通过 Attention 机制直接去“看”上游融合好的 BEV 特征图。这意味着规划器实际上在做感知数据的二次融合,提取它关心的路面细节(如路面坑洼特征)。
- 特点: 融合不再是一次性的步骤,而是贯穿整个网络的信息流 (Information Flow)。
第四阶段:端到端 (End-to-End) —— 原始数据级/隐式融合 (Raw Data / Implicit Fusion)
- 融合层级: 极早期 (Early Fusion) / 隐式融合。
- Camera: 原始视频流 (Video Stream),甚至是 RAW 格式。
- 极高的时空对齐要求: 因为网络内部没有显式的坐标转换模块,必须在输入端通过外参标定将所有像素/点云精确对齐,或者让网络自己学习这种对齐(Soft Alignment)。
- 所有的模态数据(视频、点云、导航指令、自身速度)在网络的第一层或前几层就被编码(Tokenization)。
- Transformer 的自注意力机制(Self-Attention)会在海量 Token 之间自动寻找关联。
- 没有显式的“融合算法”: 网络自己学会了“在雨天多看雷达 Token,在白天多看视觉 Token”。
为什么是这级? 相信神经网络的特征提取能力优于人工设计的 BEV 投影或卡尔曼滤波,保留最大信息熵。
第五阶段:VLA (具身智能) —— 多模态语义对齐 (Multimodal Semantic Alignment)
- 融合层级: 语义空间融合 (Semantic Space Fusion)。
- 传感器要求: 数据必须被“Token 化”成大模型能理解的格式。
- Image/Video Token: 视觉编码器将画面转为 Token。
- Text Token: 用户的指令(“去机场”)转为 Token。
- Action Token: 历史驾驶动作转为 Token。
- LLM 融合: 在大语言模型的 Embedding 空间里,这些不同模态的 Token 被统一处理。LLM 理解图像中的“红灯” Token 和文本规则中的“停止” Token 具有相同的语义含义。
总结:融合层级演变表
算法阶段 | 融合层级 | 输入数据形态 | 融合地点 | 优势 |
|---|
模块化规则 | Object Level (后融合) | 目标列表 (List) | 域控 CPU | 算力低,解耦好 |
BEV/多任务 | Feature Level (中融合) | 特征图 (Feature Map) | BEV Transformer | 互补性强,3D感知准 |
UniAD | Query Level (特征流) | 稀疏向量 (Query) | 全网络 Attention | 任务协同,减少累积误差 |
端到端 | Raw/Token Level (前融合) | 视频流/原始点云 | 神经网络输入层 | 信息无损,拟人化 |
VLA | Semantic Level (语义融合) | Embedding Token | LLM 内部 | 具备常识推理能力 |