当前位置：首页>自动驾驶>中科院等最新ST-Prune:自动驾驶视觉大模型90%剪枝,性能不减反升

中科院等最新ST-Prune:自动驾驶视觉大模型90%剪枝,性能不减反升

2026-05-13 07:56:52

龙哥推荐理由：
当前自动驾驶VLM模型面临巨大的算力瓶颈，主要来源于多视角、多帧的输入带来的海量视觉token。现有的剪枝方法大多针对单图设计，忽视了自动驾驶场景中固有的时空冗余。来自中科院等机构的研究者提出了ST-Prune，这是一个优雅且高效的解决方案，通过“运动感知”和“环视几何”两个视角，在无需重新训练的情况下，实现极致的token压缩。本文创新性强，实验扎实，在四个主流自动驾驶基准上全面超越现有方法，实用性极高。

原论文信息如下：

论文标题:
ST-Prune: Training-Free Spatio-Temporal Token Pruning for Vision-Language Models in Autonomous Driving

发表日期:
2026-04-22 发表单位:
中国科学院大学、中国科学院自动化研究所、Carizon 原文链接:
https://arxiv.org/pdf/2604.19145v1.pdf

自动驾驶VLM的算力瓶颈：时空冗余的“诅咒”

现在的自动驾驶，卷到天上去了。

大伙儿都知道，传统的感知方案（目标检测、语义分割）已经不够看了，顶级的玩家都在搞端到端——直接用大模型（Vision-Language Models, VLMs）来做感知、预测、规划一体化。特斯拉的FSD、国内的各种“无图智驾”，背后都有VLM的影子。

但问题来了：VLM虽然聪明，可是胃口也太大了。

更要命的是，这成千上万个token里，绝大多数都是没用的信息，比如：

时间维度：连续几帧里，背景（道路、建筑）几乎一模一样，只有移动的车辆和行人才是关键的。

空间维度：6个摄像头之间有重叠的视野，同一个物体或者同一条马路，被多个摄像头拍到，产生大量重复的token。

这种时空冗余，就是自动驾驶VLM的“算力诅咒”。既浪费计算资源，又拖慢推理速度，甚至可能把真正重要的“长尾事件”（比如突然冲出的行人、变红的信号灯）给淹没了。

传统的方法怎么剪枝？大部分是“一把抓”：把所有的token混在一起，根据某些规则（比如注意力分数、相似度）丢掉一部分。但这些方法都是为单张图片设计的，根本不知道哪个token来自第几帧、哪个token来自哪个摄像头。结果呢？

看下面这张图，传统的剪枝方法（左边）丢了行人，保留了背景；而新方法（右边）则完美地保留了关键的行人。这就是差距。

图1：传统剪枝方法在时空驾驶输入上的失效模式以及ST-Prune的改进。

那怎么办？难道要重新训练一个针对时空的剪枝模块？不需要！中科院等团队带来的 ST-Prune 给了一个漂亮得令人拍大腿的答案。

ST-Prune：无需训练，即插即用的“双刀流”剪枝方案

ST-Prune的全称是 Spatio-Temporal Pruning（时空剪枝），由中国科学院大学、中科院自动化所和Carizon团队共同提出。它的最大卖点就是：无需重新训练，即插即用。

什么意思？就是你在已有的VLM模型（比如DriveMM）上，什么都不用改，直接插个插件，就能把输入的视觉token数量压缩到原来的1/4甚至1/10，而性能几乎不掉，甚至有些指标还涨了！

ST-Prune由两个互补的模块组成，作者戏称为“双刀流”：

MTP (Motion-aware Temporal Pruning) —— 运动感知的时间剪枝：专门对付时间维度上的冗余。它会优先保留动态的、最近帧的token，丢掉重复的静态背景。

RSP (Ring-view Spatial Pruning) —— 环视空间剪枝：专门对付空间维度上的冗余。它会利用环视摄像头的几何排列（前左、前、前右、后右、后、后左），把相邻摄像头之间重复的token干掉。

整个流程如图2所示：输入的 V x T x P 个token（V是视角数，T是帧数，P是每帧的patch数），先经过MTP，在每个视角内独立地压缩到K1个token，再经过RSP，进一步压缩到K2个token。最终每个视角只剩K2个token，总计VxK2个，大大减少了计算量。

图2：ST-Prune用于时空token缩减的pipeline。框架通过双阶段选择过程处理多视角、多帧输入：(1) MTP，利用运动和近因先验处理时间冗余；(2) RSP，处理多视角空间几何中的空间冗余。每个阶段都利用迭代的Max-Min Selection引擎，通过优化经过相应时间或空间加权分数增强的多样性目标，来维持一个多样且语义丰富的token集合。

这个“双刀流”不仅效果好，而且计算开销极低。整个剪枝过程是纯贪心算法，不需要任何训练数据，直接就能用。下面我们分别看看这两个模块是怎么做到的。

MTP模块：看“动”不看“静”，时间维度的智能剪枝

假设你有连续3帧的画面，每帧有7x7=49个patch。如果不做剪枝，3帧总共147个token。MTP的任务就是从这147个里选出最有用的K1个。

MTP的核心思想就两条：运动敏感度和时间近因。

运动敏感度：如果一个patch在帧与帧之间变化很大（比如行人走过），那它很可能就是动态目标，值得保留。怎么衡量变化？很简单，计算每个patch的特征向量在时间维度上的方差。方差越大，越“运动”。

时间近因：越靠近当前帧的token越重要。比如第3帧是最新帧，它的token应该得到更高的保留优先级。怎么建模？用指数函数对帧索引进行加权，帧越新，权重越大。

MTP把这两个信号融合成一个统一的 时间重要性分数 Stem(t,p)：

其中，第一项是运动方差（特征向量相对于时间均值的L2距离的平方），第二项是时间近因，α是缩放因子（实验中设为2），t是帧索引（0到T-1）。两个部分独立进行min-max归一化后相加。

有了这个分数，MTP在贪心选择种子token时就偏向于高分数token：

后面每一步，都选一个与已选集合最不相似、同时时间重要性也高的token：

其中cos相似度sim的定义如图：

这样，MTP就能从连续的几帧中，挑出那些真正在运动的、最新的token，而把几乎一样的静态背景大片大片地丢掉。这可是传统的单帧剪枝做不到的。

RSP模块：击破“环视”冗余，空间维度的几何先验剪枝

MTP处理完时间冗余后，每个视角还剩下K1个token。但是这些token里，仍然包含大量跨视角冗余：相邻摄像头之间重叠的视野，导致同一个物体（比如远处的天桥、路边的栏杆）被多个视角同时拍到，造成重复。

RSP模块就是为解决这个问题而生的。它的关键洞察是：利用环视摄像头的物理几何结构。

假设6个摄像头按顺序排列：F_L（前左）、F（前）、F_R（前右）、B_R（后右）、B（后）、B_L（后左）。相邻的视图之间（比如前左和前）有很大一部分视野重叠。如果一个patch在前左视图中，它在前右视图中很可能也有一个几乎一样的对应patch。

RSP定义了一个双边空间重要性分数 Sspa(v,p)，衡量当前视角v中的第p个patch与它左右两个邻居视角中最相似的patch的相似度：

这个分数的范围是[0,1]。分数越低，表示这个patch在邻居中能找到非常相似的token，说明它是冗余的，应该优先被丢掉。分数越高，表示这个token在当前视角中是独一无二的，应该被保留。

然后，在每个视角内部独立地运行贪心选择，种子token的选择公式为：

后续的步骤同样结合了最大-最小多样性目标和空间重要性惩罚项：

注意，RSP只在相邻视角之间做比较，避免了把在不同视角中但位置不同的相似物体（比如两辆黑车在不同的视角）错误地当作冗余。

整个ST-Prune的复杂度分析也表明，额外计算只有RSP的一次性双边相似度计算 O(V·P²)，相对于整体的贪心过程来说非常轻量。

而且，模块的执行顺序是先MTP后RSP，这样RSP只需要在MTP留下的K1个token上计算，进一步降低了计算量。消融实验也证实了这种顺序是最优的。

全面超越：四个自动驾驶主流榜单，性能与效率的最佳平衡

光说理论好不行，咱们来看看实验结果。ST-Prune在四个主流的自动驾驶VLM基准上进行了测试：DriveLM、LingoQA、NuInstruct、OmniDrive，涵盖了感知、预测、规划等任务。

对比的方法有VisPruner、DivPrune、PACT等，都是训练-free的剪枝方法。另外还有一个专门的驾驶剪枝方法Prune2Drive。实验在两种token保留比例下进行：保留25%（丢掉75%）和保留10%（丢掉90%）。

表1：不同token保留比例下四个基准的性能对比。†表示官方在线评估系统提供的综合分数，*表示(Accuracy + MAP + BLEU - MAE)/4。

看这个表格，简直吓人。在保留25% token的情况下，ST-Prune在DriveLM上的Average得分达到了58.83，只比全量baseline（59.11）低了0.28个点，而其他方法都掉到了57左右。在LingoQA上，ST-Prune拿到68.2，比第二名高了近3个点。在NuInstruct上更是离谱：MAE（误差）不升反降，从3.50降到了3.49，而其他方法都涨到了3.68甚至10.82。在OmniDrive上，所有任务指标几乎都是最好的。

即使保留10% token（丢掉90%），ST-Prune依然坚挺：DriveLM的Average只降了1个多点，LingoQA依然有63.6，NuInstruct的MAE也仅微涨到3.57。而其他方法在NuInstruct上几乎崩了，Accuracy掉到20%多，MAE飙到十几。这充分说明ST-Prune在面对极端压缩时依然能保留关键信息。

表2：与Prune2Drive在不同保留比例下的性能对比。ST-Prune在各项指标上全面超越，且不需要任何训练或搜索。

再看效率：

表3：NuInstruct和OmniDrive上的效率对比。所有方法在10% token保留率下评估。吞吐量指标以相对于DriveMM基线的相对加速倍数呈现，1.00表示基线性能。

ST-Prune的吞吐量加速比与DivPrune相近（约1.5-1.8倍），但性能却好得多。RSP的额外计算量极小，几乎没有影响推理速度。

深入解读原理与消融：为什么时空协同剪枝这么有效？

为了搞清楚ST-Prune每个部件的贡献，作者做了一系列消融实验。先看表4：

表4：各领域特定评分函数的贡献消融。Average Gain在NuInstruct和OmniDrive上计算。破折号表示该模块组合不适用于该基准（由于单模态输入限制）。

只看25%保留的情况。基线（Baseline）就是简单的max-min选择，没有任何时间或空间先验。加入时间分数后（MTP），在NuInstruct上平均增益从8.23提升到12.78，在OmniDrive上从7.99提升到9.13。加入空间分数后（RSP），在NuInstruct（多视角）上从8.23提升到10.38。而两者都加上（ST-Prune），在NuInstruct上达到13.16，在OmniDrive上达到9.70，都是最高。这证明时间先验和空间先验是互补的，两者结合效果最好。

再看预算分配（表5）：

表5：固定总token保留率下预算分配的消融（保留25%和10%）。

在总保留token数固定的前提下，MTP和RSP之间的预算分配也会影响性能。实验发现，当总保留25%时，将大部分预算（约80%）分配给MTP，少部分（20%）给RSP，效果最好。这符合直觉：时间维度的冗余更严重，需要更多的token来覆盖动态信息；空间维度上，因为相邻视角重叠区域很多，少量token就足以代表那些重复区域。

还能继续优化：如果再把MTP和RSP各自内部的超参数λ1和λ2调一调，还能更好。图3展示了这两个超参数的敏感性分析：

图3：MTP的λ1（上）和RSP的λ2（下）在LingoQA和DriveLM上的敏感性分析。

可以看到，λ1在0.6附近、λ2在0.8附近性能达到峰值，而且曲线比较平缓，说明方法对超参数不太敏感，好调。

最后，作者还验证了模块顺序（表6）和插入位置（表7）。先MTP后RSP（时间优先）在计算效率和性能上都略优于先空间后时间，而且在单帧基准（DriveLM）上也能直接应用。插入位置方面，在视觉编码器之后、LLM之前进行剪枝效果最好，与现有方法保持一致。

表6：剪枝顺序消融（25%保留率）。时间优先（MTP→RSP）略优于空间优先。

表7：剪枝插入位置消融。在projector之后、LLM之前剪枝效果最佳。

龙迷三问

下面是龙哥对于大家可能的一些问题的解答：

ST-Prune的剪枝原理和DivPrune有什么区别？DivPrune是基于最大-最小多样性（max-min diversity）在一个bag里选择最不相似的token。但DivPrune不知道每个token来自哪帧、哪个视角。ST-Prune在DivPrune的基础上，加入了时间和空间的先验分数，使得剪枝不仅考虑多样性，还优先保留动态的、最新的、本视角独特的token。

MTP里的运动分数具体怎么计算的？对于每个patch位置p，计算它在T帧上的特征向量集合的平均值x̄_p。然后对于每一帧t，求它与该平均值的L2距离的平方。这个值越大，说明这个patch在该帧处变化越大（运动越激烈）。同时结合指数近因权重 exp(α * t/T)。两者归一化后相加。

RSP为什么要用双边（左右邻居）而不是单边？因为环视摄像头的重叠是发生在相邻的两个视角之间的。只用左侧邻居可能会导致右侧的重复无法检测，反之亦然。双边同时检查能够更全面地识别跨视角冗余。同时，RSP只在当前视角内部做选择，避免了跨视角的物体混淆。

如果你还有哪些想要了解的，欢迎在评论区留言或者讨论~