从1000万Clips到百亿英里仿真,数据正在重新定义驾驶的“经验”
你好,我是阿刁。前面十几期,我们把智驾的感知、决策、执行、安全、功能、玩家都聊了一遍。但有一个问题一直悬而未决:
这些越来越聪明的算法,到底是怎么学会开车的?
一个人类司机拿到驾照,大约需要几十个小时的训练。但一个L3级自动驾驶系统在上路之前,可能已经在虚拟世界中开过了数百亿英里。这不是因为它“笨”,而是因为真实世界太复杂了——复杂到任何一个人类司机终其一生,都无法穷尽所有可能的驾驶场景。
今天这篇文章,我们把智驾的“训练体系”彻底拆开:数据从哪里来?什么是1000万Clips?仿真测试怎么“无中生有”地创造极端场景?为什么说数据是智驾时代的“新石油”?
📊 数据的价值:自动驾驶的“经验”从何而来?
你可能听说过一句话:自动驾驶是AI在物理世界最复杂的应用。
为什么复杂?因为真实道路环境由无数低概率、高风险、高耦合的极端情况构成。用专业术语说,这叫长尾场景(Long-Tail Scenarios)——那些发生概率极低、但遇到就可能出事的“极端情况”。
传统汽车靠什么保证安全?靠工程师写规则:如果A发生,就执行B。但规则是写不完的——你不可能为“一只狗从路边窜出+前车突然刹车+地面有积水”这种组合提前写好代码。
现代智驾系统的解法是:让AI自己从海量数据中学习驾驶规律。
就像人类通过反复练习获得经验一样,AI通过“看”大量驾驶数据,学会判断“什么时候该加速、什么时候该刹车、什么时候该变道”。这种学习方式被称为数据驱动,它正在取代传统的规则驱动方法。
而驱动这个学习过程的“燃料”,就是数据。
🔢 Clips是什么?1000万代表什么水平?
在讨论数据规模时,你会经常听到一个单位:Clips。
简单说,一个Clip就是一个带有时间维度的多模态数据片段。具体而言,它包括:
- 多模态融合:同一时段内,来自摄像头、激光雷达、毫米波雷达等传感器的数据都被保留
- 4D标注:在传统3D空间坐标(x,y,z)之外,加入了时间这一个维度,能够追溯物体的运动轨迹
为什么要用Clips而不是“张数”或“帧数”?因为驾驶是一个连续过程——只看一帧画面,你不知道前车是在加速还是减速;只有看到连续几秒,你才能理解动态意图。
1000万Clips是什么概念?
行业有一个共识:1000万Clips的数据量,相当于培养出了一位“职业老司机”级别的自动驾驶系统。
- 100万Clips:相当于新手司机,能应对大部分常规场景
- 500万Clips:相当于熟练司机,在复杂路况下表现稳定
- 1000万Clips:相当于职业老司机,能够预判风险、从容应对极端场景
目前,理想、奇瑞、吉利等车企已经宣布数据量达到了1000万Clips级别;小鹏更是将这一数字拉到了2000万Clips。马斯克曾断言,用1000万Clips训练的端到端系统,会有“惊人表现”。
但必须强调:数据不是越多越好。
地平线创始人余凯一针见血地指出:“AI时代,99%的用户数据其实不值得学习。”
为什么?因为大部分人类司机的驾驶习惯并不完美——闯红灯、随意变道、急加速急刹车……如果AI“学习”了这些坏习惯,反而会越学越差。
数据提纯比数据堆砌更重要。
理想汽车的做法是:从116万用户的真实驾驶数据中,依据驾驶顺畅度、操作规范性等维度建立筛选标准,最终只将5%的高质量数据纳入“五星老司机”的训练集。Momenta CEO曹旭东则把原始数据比作“含矿量很低的铁矿石”,认为“海量数据只是价值源头,关键在于从中筛选长尾场景,并通过训练、仿真和验证转化为系统能力”。
🔍 三类数据来源:路测、众包、仿真
那么,这些海量数据到底从哪里来?主要有三种方式。
第一类:专业路测车队——精度最高,成本也最高
这是最传统的方式。车企或供应商组建专业测试车队,车辆安装全套传感器,在真实道路上采集数据。
一辆测试车每天可产生TB级数据,但成本也极其昂贵:车辆硬件、安全驾驶员、燃料维护、数据存储与传输……有媒体报道,一家头部智驾供应商每年回传数据的流量费以亿元为单位,云端存储成本每月可能数百万到上千万元。
Waymo曾披露,其路测车队需累计行驶超10亿英里才能覆盖约2.5万种长尾场景。这几乎是不可完成的任务。
第二类:用户众包(影子模式)——规模最大,但需要筛选
这是特斯拉开创的模式,国内理想、小鹏等也在采用。
原理很简单:用户在正常驾驶时,系统在后台“默默地”运行算法,将算法的决策与驾驶员的实际操作进行对比。如果两者不一致(比如算法建议刹车但驾驶员没刹),系统会认为这是一个“有价值”的场景,将数据上传到云端用于训练。
这种模式的威力在于规模。理想已经有超过80万用户在路上跑,Moment已交付超过80万台量产车。每一台在路上行驶的车,都是一个移动的“数据采集器”——这是任何专业测试车队都无法比拟的。
但挑战在于数据质量。不是所有用户都是“好司机”。众包采集的数据中,大部分是平庸甚至糟糕的驾驶行为,必须经过严格筛选才能用于训练。
第三类:数据仿真——用虚拟世界“无中生有”
这是解决“长尾场景”问题的关键武器。
无论路测车队跑多少公里,都很难覆盖那些发生概率极低的极端场景:暴雨+夜间+行人突然横穿、前车掉落货物、路面出现异物……这些场景在真实世界中可能几百万公里才遇到一次,但对于自动驾驶系统来说,遇到一次就必须能正确处理。
仿真测试的解决方案是:在虚拟世界中,批量生成这些极端场景。
一个GPU产生的仿真数据,相当于500台量产车的数据采集效果。几何伙伴的云端仿真平台日仿真里程可达500万公里以上,场景类别超1000类。Waymo的仿真里程已超过数百亿英里,远远超过其实际道路测试的2000万英里。
仿真不是替代真实数据,而是用更低成本、更高效率覆盖真实世界“测不全”的那部分场景。
💻 仿真测试:让自动驾驶在虚拟世界里跑千万公里
仿真测试在智驾开发中的角色,怎么强调都不为过。它解决了三个核心问题:
1. 安全地测试“危险场景”
在真实道路上,你敢测试“前车突然掉落货物+后方有车快速逼近”吗?不敢——这会危及安全驾驶员和其他交通参与者。但在仿真环境中,工程师可以安全地、反复地测试这些场景,甚至模拟传感器故障、网络攻击等极端情况。
2. 可重复、可调试
真实路测有一个致命缺点:没有两次路测是完全相同的。今天的天气不同、车流不同、行人不同……当你发现系统在某个场景下表现不佳,你想修改代码后重新测试,却无法“复现”那个场景。
仿真测试完美解决了这个问题。你可以把一个场景保存下来,反复回放、反复测试,直到问题解决。这种可重复性对工程调试至关重要。
3. 加速迭代、降低成本
一个在真实道路上需要数月的测试计划,在仿真平台上可能一夜之间就能完成。仿真让工程师可以在原型车还没造出来的时候就开始测试算法,在早期发现问题、快速修改。
仿真测试的分层架构
行业通常将仿真测试分为几个层次:
- 软件在环(SIL):在算法开发早期,脱离硬件进行纯软件测试,快速迭代
- 硬件在环(HIL):将真实的域控制器、传感器接入仿真系统,验证软硬件交互
- 云仿真:在云端并发运行数万个仿真任务,日仿真里程可达数百万公里
这三层形成完整的测试验证体系,从算法到硬件、从单场景到海量并发,层层验证。
但仿真不是万能的
天下没有免费的午餐。仿真测试面临的核心挑战是:仿真与真实之间的“差距”。无论仿真引擎多么精细,它始终是对物理世界的近似——路面摩擦系数的计算、传感器噪声的模拟、车辆动力学的建模……这些模型不可能100%还原真实世界。
行业的主流做法是“虚实结合”:先用仿真覆盖绝大部分场景,再用真实的道路测试对关键场景进行最终验证。仿真发现的问题,用实车验证;实车发现的新问题,转化为仿真场景,纳入测试库。形成正向循环。
🎯 从“模仿”到“强化”:数据的下一站
数据驱动的智驾,目前主要靠模仿学习——让AI“看”人类司机怎么开,然后模仿。
但这种模式有一个天花板:人类司机本身不是完美的。
人类会疲劳、会分心、会在复杂路况下做出次优决策。如果AI只是模仿,它最多能达到人类平均水平,无法超越。
行业正在探索的下一站是:强化学习。
区别在于:
- 模仿学习:依赖人类驾驶数据的“标准答案”,被动模仿
- 强化学习:在虚拟环境中主动试错,通过“奖惩机制”自主探索最优驾驶策略
Moment发布的R7强化学习世界模型,正是在这个方向上迈出的重要一步。它让系统先通过真实数据预训练建立“物理常识”,再在仿真世界中自主探索,通过千万次试错习得人类从未展示过的驾驶策略。
曹旭东的判断是:强化学习让模型在万中无一的长尾极端场景下的决策能力,可能超越人类驾驶员。
📈 数据闭环:正反馈飞轮
最后,我们回到一个更大的视角。为什么数据能力正在成为智驾公司的核心竞争力?
因为自动驾驶正在形成一个正反馈飞轮:
更多量产车 → 更多真实驾驶数据 → 更好的算法 → 更好的用户体验 → 更多用户愿意使用智驾 → 更多量产车……
这个飞轮一旦启动,领先者的优势会越来越明显。Moment已交付超70款量产车型,累计定点车型超200款,搭载其方案的量产车辆规模突破80万台。理想的数据量从100万Clips到1000万Clips,只用了7个月。
曹旭东的判断更为宏观:“自动驾驶是物理AI的序章。”他认为,率先跑通数据与商业双闭环的自动驾驶领域,将成为物理AI时代的第一块拼图。
而那些无法建立起数据闭环的公司,无论单点算法多强,终将被甩在后面。
✍️ 写在最后
回到开篇的问题:为什么智驾需要这么多数据?
因为真实世界太复杂了,复杂到没有任何工程师能穷举所有规则。数据不是替代规则,而是让AI从数据中自己“悟出”规则。
1000万Clips意味着系统见过1000万个“驾驶片段”,就像一位开了几十年的老司机,什么路况都经历过、什么意外都遇见过——但这位“老司机”的反应速度是毫秒级的,且永远不会疲劳。
从路测车队到用户众包,从真实数据到虚拟仿真,数据正在重新定义驾驶的“经验”。而那些能建立起数据闭环、持续迭代优化的公司,正在赢得智驾时代最核心的竞争力。
下期,我们将从数据和仿真,聊到一个更具体的技术——BEV+Transformer。为什么BEV被称为“上帝视角”?Transformer又是怎么让纯视觉方案第一次具备竞争力的?欢迎继续关注「智驾笔记」系列文章。
如果你觉得这篇文章帮你理解了“为什么智驾需要那么多数据”,点个在看,转发给那个好奇“自动驾驶怎么学习的”朋友。我们下期见!
本文为「汽车圆桌谈」原创。部分数据参考理想汽车、Momenta、几何伙伴等企业公开信息及行业研究报告。
📎 本期参考资料
- 51testing《AI重构车载测试:从人工到智能的跨越》
- 汽车产经网《华为乾崑2026:从“智驾”到“智能体”的出行范式》
- 封面新闻《Momenta R7强化学习世界模型全球首发》
- 中国经济网《王建强:自动驾驶正从规则驱动与数据驱动向认知驱动演进》
- 几何伙伴《仿真测试平台:云端仿真,为系统进化按下“加速键”》
- 凤凰网《攻克“鬼探头”与“逆光盲区”,自动驾驶的“长尾补盲战”》
- 证券日报《Momenta CEO曹旭东:中国技术正加快走向世界》
- 第一电动《1000万 Clips,辅助驾驶第一梯队的入场券》
- OPAL-RT《仿真第一是自动驾驶汽车测试的新标准》