一、引言
在自动驾驶系统的技术传播中,“响应延迟”已异化为一种数字景观。英伟达宣称Drive Thor“低于50毫秒”,特斯拉展示30毫秒的理论极值,小鹏公布80毫秒的全链路时延,华为则强调200毫秒的安全兜底——这些数字被媒体并排陈列,仿佛它们丈量着同一段距离。然而,一个根本性的问题被有意或无意地悬置了:这些数字究竟测量了什么?
本文无意介入“谁更快”的庸俗竞赛,而是试图回答一个更基础的问题:在自动驾驶的语境下,“延迟”本身就是一个需要被解剖的概念。我们将以英伟达、特斯拉、地平线、小鹏、华为五家头部厂商公布的最新延迟数据为事实锚点,从测量学定义、架构固有属性、安全哲学三个递进维度展开分析。核心论点是:在没有统一测量标准的前提下,任何横向延迟数值比较都不具有方法论上的合法性;而真正值得关注的,不是名义上的“最快延迟”,而是系统在真实复杂工况下延迟的确定性与鲁棒性。
二、延迟的测量学迷宫:定义、统计与条件
在比较任何数值之前,必须首先回答三个前置问题:测量的是什么?采用何种统计方式?在什么条件下测得?恰恰在这些问题上,五家厂商给出了五种不同的答案。
定义的分歧:感知、计算、控制与端到端
“延迟”一词在自动驾驶的讨论中以多种相互不可通约的含义出现。仅“感知延迟”一项,就可被细分为传感器曝光延迟、数据传输延迟、预处理延迟与推理延迟四个子类,不同系统对测量起止点的定义差异可达数十毫秒。五家厂商的数据恰好是这一判断的完美例证。
英伟达Drive Thor的“低于50毫秒”,是一个纯净的芯片级推理延迟——测量起点为数据进入Blackwell GPU,终点为推理结果输出。这一定义不包含传感器采集、信号传输、执行器响应,是计算平台在既定功耗与热约束下的硬件性能上限。它证明的是算力底座的理论峰值,而非整车系统在全场景下的延迟承诺。特斯拉的数据则呈现双面孔:AI Day公布的30毫秒是单帧推理的理论极值,不含传感器采集与执行器反馈;而真实城市道路下FSD V12.3的完整闭环延迟为70至90毫秒——两者之间40至60毫秒的差值,恰好是实验室理想条件与真实世界复杂约束之间的距离。
当我们将目光转向中国厂商,定义的多样性进一步放大。地平线HSD V1.6的160毫秒常规全链路延迟,测量起点为“光子输入传感器”,终点为“轨迹输出”。小鹏第二代VLA的80毫秒常规全链路闭环时延,测量起点为“摄像头曝光完成”,终点为“执行器收到指令”。两者起点之差——光子撞击传感器表面到摄像头曝光完成——在典型CMOS传感器中可耗时10至30毫秒,仅此一项便足以改变系统在比较中的相对位置。华为ADS 5.0的“低于100毫秒”则始于“多传感器同步完成”,该起点已略过了传感器原始信号采集与时间同步的预处理开销。需特别指出,华为端到端系统的整体时延远高于此单环节数值——据公开技术资料,其完整端到端决策时延约为300毫秒量级——这进一步印证了“延迟数值高度依赖测量边界”的核心论点。
功能安全标准ISO 26262在其系统层面对“响应时间”与“故障容错时间间隔”提出了严格的确定性要求,但该标准所关注的,是安全相关功能在故障发生后、危险事件发生前的容忍窗口,而非用于性能宣发的常态运行延迟 [1]。两者虽共享“时间”这一量纲,测量对象与约束条件却完全不同。将功能安全标准中的时间参数与营销材料中的性能延迟混为一谈,是行业中最常见也最具误导性的范畴错误之一。
统计口径的幽灵:均值、分位值与最差情况
即便测量起点与终点达成一致,统计方式的选择仍可从根本上重塑数据的面貌。在典型的工程实践中,三种统计口径最为常见:算术均值、99分位值、最差情况值。均值反映系统的典型表现,但对长尾分布极为敏感;99分位值切掉了1%的最极端场景,展现“绝大多数场景”下的表现;最差情况值揭示了硬件与算法的真正边界,但可能源自百万分之一里程的罕见工况。
五家厂商再次提供了教科书级别的差异案例。英伟达的“低于50毫秒”明确标注为最差情况延迟,展示的是芯片在最高负载下的性能底线。特斯拉的30毫秒为理论极值,70至90毫秒为真实场景实测均值。地平线的160毫秒为量产均值,50至80毫秒为突发场景极限应激值,属另一种统计维度。小鹏的80毫秒为覆盖99%日常场景的均值——需注意该数值对应特定工况,非全场景普适指标。华为的“低于100毫秒”为99分位值,即有99%的场景满足该指标;其本能安全网络的200毫秒则为经过工程验证的确定性上限。
这三类统计值之间存在根本性的不可换算关系。一个系统的99分位延迟为100毫秒,其最差情况延迟可能高达200毫秒;另一个系统的均值延迟为80毫秒,其99分位值却可能因长尾分布而显著高于前者。当英伟达选了最差情况来展示底气,小鹏选了均值来展示平顺,华为选了分位值来展示覆盖面时,任何横向对比都沦为数字修辞术的竞技场,而非严肃的技术评估。
测量条件的不透明性
延迟并非一个固定的物理常数,而是随环境条件、计算负载、传感器工况动态变化的函数。工程实践反复表明,夜间低照度下摄像头曝光时间延长,直接增加感知管道的输入端延迟,端到端架构的推理时间波动也可能因场景复杂度上升而加剧;暴雨或强逆光导致传感器噪声增大,触发更复杂的滤波算法,对多传感器融合架构的计算负载影响尤为显著;施工区、无标线道路等非结构化场景,则迫使规划模块进行更密集的搜索,推高模块化架构的控制端延迟。然而,五家厂商中,仅华为在ADS 5.0发布时明确提及了测试工况范围(城区复杂工况),其余厂商的延迟数据所对应的具体环境条件大多未被披露。一个在晴天高速公路测得的数值,与在夜间拥堵城区测得的结果之间,可能存在系统性偏差。在缺乏工况披露的情况下,任何单一的延迟指标的信息价值都极其有限。
三、架构的延迟印记:模块化与端到端的天然鸿沟
延迟不是一个可以被无限优化的独立参数。它深嵌在系统的软件架构中,是架构选择的必然结果。五家厂商的架构差异,为我们提供了观察这一规律的绝佳窗口。
串行累积——模块化架构代表:华为ADS 5.0
传统自动驾驶系统采用模块化管线:感知、检测、预测、规划、控制等模块依次串行执行。这种串行架构的系统性延迟并非各模块延迟的简单代数和,而是叠加了模块间通信、数据格式转换与中间表示序列化的额外开销。当系统包含数十个子模块时,跨模块的数据搬运与同步可贡献全链路延迟中不可忽视的比例。这一开销并非算法优化的对象,而是架构的固有属性——只要管线是串行的,这些成本就不可避免地累积。
华为ADS 5.0是模块化架构中融合深度最高的代表。其主网络需完成激光雷达、视觉与4D毫米波雷达的多传感器交叉验证,这一“安全包袱”意味着更多的模块间数据交换与同步开销。然而,华为依然将99分位延迟控制在100毫秒以内,这本身是一项工程成就——它证明了在背负重融合开销的情况下,通过确定性时延引擎仍可实现有竞争力的延迟控制。而华为公布的200毫秒本能安全网络延迟,则是其独立备网的确定性上限——这个数字不是“慢了”,而是为满足ASIL-D功能安全等级的严格验证要求而设计的工程阈值,不可再快以防止误判。
并行压缩——端到端架构代表:小鹏第二代VLA、特斯拉FSD
端到端架构试图从根本上打破串行瓶颈。通过将传感器输入直接映射为控制输出,端到端模型取消了模块间边界,将所有计算压缩进一个统一的神经网络。这一范式的理论吸引力显而易见:当整个驾驶策略被训练为单一神经网络时,推理时间可被压缩至传统模块化系统难以企及的水平。
小鹏的80毫秒正是这一范式优势在特定工况下的集中体现。通过彻底取消传统的“感知-检测-预测-规划-控制”多级串行架构,采用视觉直连动作的端到端大模型,小鹏实现了结构性的降延迟。特斯拉的30毫秒单帧推理极值则展示了端到端范式在底层优化上的额外潜力——通过HW4.0硬件与MLIR编译器的深度协同设计,将单环节效率推向极致。
然而,端到端架构在延迟方面的一个关键限制,在于其非均匀的推理时间分布。在简单场景下,模型可能快速产生输出;在需要复杂推理的临界场景中,模型的内部注意力机制可能隐式地进行更多计算步骤,导致实际推理时间波动范围远超名义值。这一“延迟抖动”特性已被行业公认:端到端系统的推理时间受场景复杂度影响显著,简单场景响应快,复杂场景可能触发长尾延迟。这意味着,端到端系统的均值延迟(如小鹏的80毫秒)与最差情况延迟之间的鸿沟,可能比模块化系统更大。
时序分离——双网架构代表:地平线HSD V1.6、华为ADS 5.0
地平线与华为的架构选择,揭示了第三种道路:主网络负责全场景决策,追求体验的平顺与综合表现的均衡;应急网络或安全备网仅处理碰撞规避,追求极致的响应速度或确定性。地平线的“160毫秒常规链路”与“50至80毫秒应急链路”是这一设计的典型表达——两组链路服务于不同的场景,拥有不同的延迟特性,无法用单一数字概括。华为的“低于100毫秒主网”与“200毫秒本能安全网络”同样体现了这一哲学,差异在于华为的备网被设计为一个独立的、为满足ASIL-D功能安全等级 [1] 而严格设计的硬防线,其200毫秒阈值是经过工程验证的确定性上限,不可再快。
这种双网架构在本质上承认了一个事实:无法用单一延迟数字来描述一个完整自动驾驶系统的时序行为。
四、安全与速度的两种哲学
延迟不仅是一个技术参数,更是一个安全命题。在这一点上,五家厂商的实践折射出行业内深刻的哲学分歧。
“快即是安全”:争抢毫秒的生存逻辑
一种观点认为,在临界场景下,每一毫秒的延迟缩减都直接转化为碰撞概率的降低。特斯拉的30毫秒理论极值与地平线的50至80毫秒应急链路,是这一哲学的工程体现:在鬼探头、横向加塞等毫秒级高危场景中,系统主动放弃多传感器交叉验证与全局规划,以极简链路换取生存窗口。其代价是:轻量感知链路在极端场景下存在误触发风险,地平线已明确将误触发率控制列为应急链路持续优化的关键课题。
这种策略面临一个根本性的风险:过度压缩延迟可能导致系统在遇到分布外场景时,因缺乏足够的计算冗余而做出错误决策,而一个错误的快速决策可能比一个稍慢的正确决策带来更严重的后果。这一“速度-准确性”的基本张力,构成了自动驾驶系统设计中不可回避的权衡关系。
“可预测的慢才是安全”:确定性与冗余的辩护
另一种观点则主张,安全的本质不在于名义上的响应速度,而在于响应时间的确定性。华为的200毫秒本能安全网络是这一哲学的工程宣言:该阈值是经过工程验证、为满足ASIL-D功能安全等级 [1] 而设计的确定性上限,不可再快以防止误判。小鹏在端到端架构中强调99%场景下的稳定80毫秒输出与低误判率,同样体现了对“确定性”的追求——一个稳定在80毫秒的系统,比一个在30至150毫秒之间剧烈抖动的系统更具工程价值。
ISO 26262功能安全标准为这一观点提供了制度性支撑。该标准要求安全相关功能的故障容错时间间隔必须是可预见的、经过验证的确定性值,而非统计均值 [1]。这意味着,在功能安全的合规框架下,一个经过验证的、确定的响应时间,在安全性论证层面优于一个统计上更快但缺乏确定性保证的响应时间。
英伟达的选择则代表了第三种态度:将最终表现交给车企集成。作为Tier 2供应商,它提供算力上限,但不定义最终延迟——这既是其平台化灵活性的体现,也意味着最终体验的不确定性。
五、结论与展望
五家厂商的五组数字——英伟达低于50毫秒、特斯拉30与70至90毫秒、地平线160与50至80毫秒、小鹏80毫秒、华为低于100与200毫秒——每一个都真实,每一个都有其技术依据,但它们测量着不同的物理过程,采用着不同的统计口径,根植于不同的架构选择,服务于不同的安全哲学。将它们并排比较,在方法论上毫无意义。
评判自动驾驶系统的响应性能,应关注的不是名义上的毫秒数值,而是三个更根本的问题:第一,延迟在复杂工况下的确定性与鲁棒性如何?第二,延迟与误制动率、场景覆盖率、功能安全等级的联合表现是否均衡?第三,延迟数值背后所对应的测量定义、统计口径、架构选择与安全哲学,是否与自身需求匹配?
行业的当务之急不是继续压缩毫秒,而是在三个层面建立共识:其一,测量框架标准化——明确定义“端到端延迟”的统一测量起点与终点,使不同系统的数据在同一框架下被生产;其二,工况披露强制化——要求厂商公开测试时的环境条件、场景复杂度及统计方法;其三,安全与性能协同评估——将延迟数据与误制动率、接管频率等指标联合分析,避免单一维度误导。只有当数字在同一个测量框架下被生产时,比较才有意义。
作为陪伴你理解这些技术脉络的思考伙伴,我希望你从这场关于毫秒的讨论中带走三个更长久的视角。
第一,在任何专业领域,警惕单一数字的霸权。当一个复杂的系统被压缩为单一指标时,被省略的维度往往比被呈现的数字更具信息量。第二,识别“测量”本身的建构性。测量不是对客观事实的被动反映,而是定义了起点、终点与统计方式之后的人为建构。第三,在速度与确定性之间,给后者以适当的权重。一个可预期的、稳定的输出,在长期尺度上往往比一次惊艳的峰值更具系统价值。
展望未来,下一个阶段的竞争焦点将从“谁更快”转向更根本的问题:一个自动驾驶系统如何在其延迟、安全、成本与体验之间,找到那个经得起时间与真实考验的平衡点。这才是端到端自动驾驶延迟问题的最终答案所在。
参考文献
[1] International Organization for Standardization. (2018). Road vehicles — Functional safety (ISO 26262 series). ISO.