本文为节选,如需报告请联系客服或扫码获取更多报告
3.1 高精地图:静态真实数据的经验与教训
高精地图是自动驾驶早期依赖的、典型的“静态真实数据”典范,其经验深刻揭示了纯真机采集模式的固有瓶颈。
在自动驾驶发展初期,车辆感知能力有限,无法满足高安全可靠性要求。早期感知算法在复杂光照、天气与路况下表现极不稳定,仅凭车载传感器难以实现厘米级精确定位与对环境要素的稳定感知。
在此背景下,高精地图作为一项关键技术被引入,迅速成为高级别自动驾驶系统的重要组成部分。高精地图巧妙地将“实时理解环境”这一复杂的视觉问题,转变为了“在已知地图定位”的相对简单问题,降低了对实时感知算法的依赖,使车企能够基于尚不成熟的感知系统快速搭建稳定的演示系统,加速了技术早期落地。
然而,高精地图的广泛应用也带来了技术路径依赖。首先,制作覆盖广泛区域的高精地图需要专业采集车队与复杂后期处理,前期投入大。然后,道路环境处于持续变化中,施工、改道与交规更新频繁,维持地图“鲜度”需要持续投入,对商业模式构成挑战。更为关键的是,依赖高精地图的自动驾驶车辆只能在已测绘区域运行,限制了其泛化能力,难以应对未测绘区域,与全域自动驾驶的长期目标存在矛盾。
此外,长期依赖地图提供的明确规划指令,可能削弱感知系统攻克复杂场景的动力,一旦脱离地图或地图出错,系统表现将显著下降。
高精地图从特定历史阶段提升效率、弥补短板的工具,因其显著效果而逐渐演变为系统的基础依赖,最终因规模化成本与泛化能力限制而被行业重新评估。
为破解困局,行业转向使用由众包车辆自动生成的轻量化地图,利用海量装备普通传感器的产线车辆在日常行驶中实时回传变化信息,经云端融合处理后,以低成本、高效率实现地图的动态更新。这一转变的本质是将数据采集从昂贵的、专门的生产活动,转变为嵌入到大规模日常应用中的“影子模式”,实时追踪人类驾驶员行为,形成模型训练与反馈的闭环。高精地图的经验深刻警示,地图是静态的,场景是动态的,具身智能不能仅依赖实验室或工厂预采的固定数据集,真正的智能体现在对未知环境的适应。此外,构建一套类似“影子模式”的动态、闭环数据采集系统,将为具身智能破解规模化载体不足的困局提供了关键思路,尤其是人形机器人目前缺乏规模化部署载体,数据采集依赖高成本原型机与有限场景,导致发展陷入循环制约。
3.2 数据异构融合:分层采集与合成
自动驾驶的系统架构需求驱动了数据形态变革。从早期为各独立模块提供精确信号,到为融合感知模型提供特征地图,再到为端到端大模型构建动态世界表征,不同功能层之间的数据融合,随算法范式的升维而不断深化。
在模块化架构时代,数据采集的核心任务是保证感知、预测、规划等独立模块的稳定输入。激光雷达、摄像头、毫米波雷达等异构传感器需进行精密的时间同步与空间标定,实现数据级的前融合。部件厂商在这一底层工作中扮演了关键角色。禾赛科技在 2017 年与百度 Apollo 联合发布的 Pandora 一体化传感器中,开创性地将 40 线激光雷达与多个摄像头集成于单一圆柱体结构中。Pandora 通过一体化的设计,将激光雷达与摄像头的相对位置固定,解决了此前分立式传感器需要人工标定的难题;同时,禾赛科技负责把控激光雷达与摄像头的触发时机,确保两个传感器信息采集的同步,将传统方案中可能存在的数百毫秒误差压缩至微秒级。速腾聚创在 2018 年 CES 上推出的 LCDF(Lidar-Camera Deep-Fusion)技术,将 MEMS 固态激光雷达与摄像头进行硬件上的底层融合,让自动驾驶车辆能全方位感知真实世界的三维空间色彩信息。其核心价值在于解决了多传感器数据的时空一致性难题——传统的做法需要下游厂商单独对分立传感器进行标定,费时费力且难以保证时间同步与空间校准。LCDF 技术让两者预先融合,保证了两者的时空一致性,使自动驾驶车辆在做决策算法之前,就能实时感知并处理相关信息。
随着深度学习兴起,感知模块率先模型化,感知层需要海量带标注的真实图像与点云数据来训练深度神经网络,这催生了通过量产车“影子模式”等创新采集手段,旨在自动化捕获人类驾驶员与算法判断不一致的长尾场景,相应地,数据融合的核心从“数据级对齐”跃升至“特征级融合”,以 BEV(鸟瞰图)感知范式为代表,通过神经网络将多摄像头、多模态信息在统一的俯视图空间下编码,合成出一张富含语义、几何与速度信息的动态特征地图。与此同时,合成数据技术开始服务于生成稀缺的关键场景特征,如极端天气下的物体形态或复杂的交通参与者交互,用以专项提升模型的鲁棒性。
2021 年特斯拉引入 BEV 后引发了业界的广泛关注,比如,理想汽车在 2022 年即做了 BEV 环视 ADAS 视觉算法与激光雷达感知数据进行前融合,并与与清华大学、MIT 合作完成了全球首个实时构建高精地图的公开工作。蔚来汽车正式推送 NOP+ 增强领航辅助功能,从统一框架进行功能设计,NOP+ 的综合通行成功率较上一代提升 40%。小鹏汽车G9 车型获得广州智能网联汽车道路测试牌照,完全采用量产车为载体,大幅降低了 Robotaxi 的综合成本,促进了辅助驾驶与自动驾驶双向互哺,实现数据和技术能力的闭环迭代。
当前,面向端到端自动驾驶与大模型范式的探索,系统追求一个或少数几个能够直接映射传感器输入到控制指令,或进行复杂时空推理的通用模型。这就要求数据体系必须提供能支撑“感知 - 决策”联合优化与“世界模型”训练的连贯时空序列。因此,采集的重点从静态的标注帧转向大规模、时序化的真实驾驶视频流。这种合成数据需要具有空间一致性、时间连贯性及物理可交互性等特征,为训练具备预测、规划和因果推理能力的通用智能体提供了至关重要的数据基础。
在时序化视频流采集方面,蔚来汽车在蔚来世界模型 NWM(NIO WorldModel)中主张群体智能与生成式仿真,2026 年 1 月正式推送的蔚来世界模型 NWM 全新版本,首次在国内将完整的闭环强化学习技术深度融入智能驾驶研发体系。依托长时序环境推理能力与高频次闭环训练机制,模型可自主理解道路动态、交通常识及空间关系,显著降低对人工标注数据的依赖。理想汽车在 2026 年初明确提出了从“2D ViT”向“3D ViT”的架构跃迁,理想 VLA 司机大模型的训练数据已超过 1000 万 Clips。小鹏汽车的第二代 VLA 智能驾驶系统同样依赖覆盖 1 亿段驾驶视频的训练数据(等效人类驾驶 6.5 万年),实现视觉信号到驾驶指令的直接生成。
在空间一致性、时间连贯性及物理可交互性的数据生成方面,文远知行的 GENESIS 世界模型平台实现了突破。该系统不仅能高保真复刻真实路况,还能自动生成极端场景、自动诊断算法弱点,其生成数据与真实世界分布偏差小于 5%,实现“训练即实战”。地平线与 iCAR 联合发布的 HSD(Horizon SuperDrive)一段式端到端方案,通过结合强化学习算法与 VLM 大模型“通识外挂”,在不依赖高精地图的情况下,实现对复杂道路要素的理解与迁移,能够在“未见过的场景”中快速理解环境并生成应对策略。
人形机器人与环境的交互方式更为复杂,涉及非结构化环境、全身动作控制与精细操作,这些包含物理常识的高维数据,获取和使用的成本高昂,导致其研发难度可能高于自动驾驶。自动驾驶工程化中不同功能层需求不同,具身智能的高层规划、技能模仿、底层控制也具有类似的差异化的数据供给。例如,高层任务规划需要包含任务逻辑与对象关系的视觉数据,操作任务的模仿学习需要高保真的动作轨迹数据等。自动驾驶中 BEV 特征地图的成功表明,将多模态原始数据融合并提炼成一种紧凑、结构化、适合决策的中间表征,远比直接处理原始信号更高效。然而,具身智能使用更多的专用传感器,意味着更复杂的标注工作,这些都为数据处理带来艰巨的挑战。
3.3 数据驱动的闭环:仿真优先,真机验证
自动驾驶系统的工程化落地中,数据通过采集、标注、训练、测试、回传等环节,持续驱动算法和系统优化,构建起了一个高效、可靠且可迭代的数据驱动闭环。这一闭环并非直接依赖于实车海量路测,而是遵循“仿真优先,真机验证”的核心原则。
“仿真优先”源于对研发确定性与经济性的极致追求。其核心价值首先体现在风险前置与成本控制上,在软硬件集成初期,将算法置于高保真仿真环境中验证,可以隔离真实车辆动力学、传感器噪声等复杂变量的干扰,在虚拟空间快速暴露算法逻辑与接口问题,避免将不稳定代码直接部署于昂贵且危险的实车平台。
仿真提供了确定性的测试与无限场景覆盖能力。任何交通场景,尤其是极端、危险的长尾场景,都可在仿真中被确定性地创造、精确复现和反复测试,实现了“过程可重复、结果可预期、问题可追溯”的工程理想。此外,这带来了闭环迭代的速度与规模革命。云端并行仿真可在数小时内完成相当于数百万公里路测的场景覆盖,实现算法版本的快速迭代与验证,形成了研发效率的数量级优势。纯粹依赖真机路测来积累里程、发现和解决长尾问题,在时间、成本和安全上均是不可承受之重。
在自动驾驶数据闭环中,仿真贯穿于数据采集、处理、应用的全流程,是驱动闭环运转的关键技术要素,扮演着三重核心作用。
第一,它是带精确真值的“数据工厂”,能自动生成无限量的、带有像素级或物体级精确标注(真值)的多模态数据,为感知等模型的监督学习提供了至关重要的初始燃料和扩充能力,并能按需提供从原始信号到高级语义的任一层次数据。
第二,它能串联多层次研发闭环。通过与不同实体组件结合,仿真支撑了从模型在环(MiL)、软件在环(SiL)到硬件在环(HiL)的递进式验证体系,确保从算法到产品的集成平滑可控。当在实车测试中发现故障时,仿真还能用于精准回溯,在虚拟环境中复现问题以定位根因。
第三,它是应对长尾场景的核心武器。通过将基准场景参数化,仿真能生成海量 corner case 进行穷举或抽样测试。更重要的是,它能与量产车的“影子模式”连接,构成完整迭代环,“影子模式”在真实世界中发现未知场景,仿真平台则负责将其重建、参数化泛化,用于算法修复与回归测试,最终通过 OTA 完成闭环。
自动驾驶探索出的“仿真优先,真机验证”范式,正深刻地指引着具身智能数据体系的走向。越来越多研究机构和企业开始采用“大规模仿真数据预训练 + 少量高质量真实数据微调”的混合训练模式,试图复现自动驾驶领域的成功路径。然而,一个根本性的差异在于:自动驾驶的“冷启动”相对容易,而具身智能的数据飞轮却面临着从零起步的“先有鸡还是先有蛋”困局。
车辆拥有明确的产品定义和既有的行驶场景,这使得自动驾驶的数据采集可以与产品销售同步启动——每卖出一台车,就新增一个数据采集节点,数据飞轮与产品规模自然共生。而具身智能截然不同,机器人还没有大规模进入真实场景,就没有足够的数据来训练智能;没有足够智能的机器人,就无法进入真实场景创造价值。数据飞轮在启动前是断裂的,需要企业主动、额外、持续地投入资源进行数据采集,无法像自动驾驶起步时“边卖车边采数”。
此外,具身智能必须搭建覆盖数据全生命周期的专业管理平台。因为行业从硬件体系到数据体系均缺乏统一的标准,没有类似自动驾驶的 3D 融合标注体系,直接导致无法评判仿真环境生成的数据价值。本章从自动驾驶产业的发展历史出发,分析总结自动驾驶数据体系演变过程中的经验与教训,论证了单一数据采集路径的不足,以及智能的泛化难以通过静态真实数据的堆砌来实现。自动驾驶从实验室到商业落地的转变,源于构建了一个动态的、算法与数据共进的混合生态系统,以真实数据为锚点和校准基准,以合成与仿真数据为规模化扩展和加速迭代的核心引擎,这种范式为具身智能数据路线的选择提供了重要参考。