1. 模块化:极致精细的“元素级”标注体系
(1)2D图像标注(适配摄像头传感器)
核心围绕摄像头采集的二维图像,开展像素级、精细化标注,为感知模块提供精准的环境语义与几何信息:
目标检测标注:通过矩形框(Bounding Box)精准标定图像中的车辆、行人、骑行者、交通标志、红绿灯等核心目标,要求实现像素级的边界精准(如红绿灯的灯色区域、车道线的虚实边缘),杜绝边界偏差导致的感知错误;
语义分割标注:采用像素级分割方式,精准区分并标注路沿、车道线、路面区域、各类障碍物、植被等环境元素,为规控模块提供精确的空间坐标参考,支撑路径规划与避障决策;
属性补充标注:针对标注目标的具体状态与特征进行补充标注,如车辆的刹车灯/转向灯开启状态、行人的年龄区间与性别、红绿灯的倒计时时长等,为人工编写的“If-Then”规则决策提供离散化的属性参数支撑。
(2)3D点云标注(适配激光雷达传感器)
针对激光雷达采集的稀疏、无语义的三维点云数据,开展高精度的三维标注,弥补2D图像标注在空间距离、深度信息上的不足:
3D框标注:在三维点云空间中,精准圈定各类目标物体,标注其长、宽、高尺寸、航向角及空间位置坐标,要求达到厘米级的标注精度——因为感知模块输出的距离偏差若达到几厘米,传递至规控模块就可能触发不必要的紧急制动,影响驾驶安全性;
点云分割标注:对三维点云进行语义分割,明确区分地面、各类动态障碍物、静态设施、植被等元素,解决激光雷达点云数据稀疏、无语义的核心问题,为融合感知提供基础;
多传感器融合标注:统一摄像头与激光雷达的坐标系,实现2D图像标注与3D点云标注的精准对齐,确保多传感器融合感知时,各类目标的信息能够相互匹配、互补,提升感知模块的鲁棒性。
(3)细分任务专属标注
模块化架构的“分而治之”逻辑,决定了其标注任务的碎片化特征:红绿灯识别、限速牌数值检测、路面坑洼与破损检测、施工区域识别等每个细分算法场景,都需要搭建独立的标注数据集,开展针对性标注,这种碎片化标注模式不仅增加了标注工作量,更推高了整体标注成本。
2. 端到端:行为导向的“动作+因果”标注体系
(1)核心行为标注(基于CAN总线数据)
端到端模型的监督信号直接来源于人类司机的驾驶行为,因此驾驶行为相关的标注是核心,这类数据主要通过车辆CAN总线采集,标注重点是行为的精准性与示范性:
控制信号标注:精准记录人类司机的驾驶控制操作,包括方向盘转角、加速踏板踩踏深度、刹车压力大小、档位切换状态等,这些数据将直接作为模型训练的核心监督信号;
轨迹信息标注:记录车辆在三维空间中的实时位置坐标、行驶速度、加速度变化,构建完整的行驶轨迹数据集,让模型学习不同场景下的合理行驶路径;
数据质量要求:标注数据必须是“金牌司机”的高质量示范数据——即驾驶行为规范、决策合理、无急刹、无违规操作,普通驾驶数据或不规范驾驶行为会误导模型学习,降低模型的决策安全性。
(2)因果逻辑标注(适配VLA/思维链建模)
为解决端到端模型“黑盒决策”的痛点,提升模型的可解释性与泛化能力,端到端路径新增了因果逻辑标注的需求,核心是建立“驾驶动作→环境诱因”的逻辑关联:
决策诱因标注:明确标注驾驶动作与环境因素之间的因果关系,例如“车辆减速→因为行人横穿马路”“路口左转→因为绿灯亮起且无对向车辆”“紧急制动→因为前车突发停车”,让模型理解决策背后的逻辑,而非单纯模仿动作;
语义关联标注:采用自然语言描述场景意图与决策逻辑,如“路口右转时主动避让非机动车”“雨天路面湿滑,降低车速保持安全车距”,支撑视觉-语言-动作(VLA)模型的训练,提升模型的可解释性;
场景标签标注:对标注数据对应的场景类型、风险等级进行分类标注,如场景类型(高速行驶、城市道路、乡村道路、雨天、夜间)、风险等级(常规场景、边缘场景、危险场景),用于后续数据筛选与模型针对性迭代。
(3)4D/世界模型相关标注(以自动标注为主)
端到端模型对标注数据的海量需求,催生了4D自动标注、世界模型等新型标注方式,这类标注不再依赖人工,而是通过技术手段实现自动化生成,标注形态也从“静态帧标注”转向“动态时空标注”:
4D时空标注:融合同一车辆或多辆车在不同时间经过同一路段的传感器数据,构建包含时间维度的高精度三维世界模型(即4D模型)。在该模型中,静态道路设施(如路灯、马路牙子)可通过多次观测实现精准标定;对于动态物体,可利用时序信息进行前后向推算,解决目标遮挡问题(如行人被建筑物遮挡2秒后,系统可通过轨迹一致性自动补齐其标签);
占用网络(Occupancy)标注:将三维空间划分为海量细小的体素(Voxel),标注每个体素在未来一段时间内是否会被物体占用,为模型提供物理空间的动态预测能力。这类海量三维空间标注人工无法完成,必须依靠强大的离线大模型,通过多传感器融合技术自动生成;
世界模型自监督标注:世界模型通过自监督学习方式,学习预测未来几秒钟的环境演变趋势,此时“未来的真实传感器数据”就成为当下数据的标注标签。自动驾驶系统通过“预测未来→与真实未来比对→修正自身表征”的闭环,实现自监督学习,无需人工干预即可从数百万小时的自然驾驶录像中汲取训练养分,这类标注还包含对物理运动规律的隐含标注(如球类滚动后大概率有儿童跟随、雨天路面摩擦力下降需减速)。