当前位置：首页>自动驾驶>博世首发BLUE:只加0.1M参数,自动驾驶VLA提速2.5倍还拿下SOTA

博世首发BLUE:只加0.1M参数,自动驾驶VLA提速2.5倍还拿下SOTA

2026-06-19 22:11:57

一句话讲清楚👉🏻 博世 Research 提出 BLUE ：在冻结 VLA backbone 的前提下，只训练一个 0.11M 参数的 gate ，让模型逐帧判断「此刻要不要生成语言」， Bench2Drive 成功率从 67.27% 拉到 76.18%，推理延迟从 1396.6ms 降到 549.5ms ，实现 2.54 倍加速。

论文标题：BLUE: Toward Better Language Use in Efficient Vision-Language-Action Models for Autonomous Driving
论文链接：https://arxiv.org/abs/2606.08684
Github 链接：https://github.com/George-Ling3/BLUE
项目链接：https://blue-website.github.io/
权重与日志：https://huggingface.co/George-Ling/blue_gate

14.5% 的路线靠语言赢， 23.6% 的路线被语言拖垮

自动驾驶 VLA 这几年走了一条很自然的路线：先让模型「说」一段场景推理，再据此输出转向、加速等动作。 SimLingo 、 CriticVLA 、 TakeVLA 等代表性工作，默认每一帧都走这条链路。

博世 Research 团队先问了一个更基础的问题：这些语言，到底在闭环驾驶里帮了多少忙？

他们在 Bench2Drive 上跑了约 2000 A100 GPU hours 的系统分析，把 SimLingo 分别放进「语言模式」和「直接动作模式」，对每条路线做重复实验，再用统计检验归类结果。数字很扎眼：

■14.5% 的路线：语言生成显著提升 驾驶成功率

■23.6% 的路线：语言生成明显拖后腿

■61.8% 的路线：语言没有可测量影响，却照样付出完整生成成本

Bench2Drive 路线按语言影响分布（上），以及 BLUE 相对原始 VLA 的推理时间对比（下）。

更扎眼的是，每帧都走语言链路，却把大量算力花在多数时候帮不上忙、有时甚至帮倒忙 的中间步骤上。 autoregressive 语言生成又是驾驶 VLA 的主要延迟来源——SimLingo 平均 0.72 FPS、单帧延迟 1396.6ms，其中语言生成占了大头。

如果能在需要的时候 才打开语言、其余帧直接出动作，理论上可以同时拿到更好的闭环成绩和更快的推理速度。难点在于：怎么判断「这一帧该不该说」？

场景复杂度猜不准， hidden states 里却藏着信号

一个直觉猜想是：复杂场景需要语言，简单场景可以跳过。团队把 Bench2Drive 全部 44 类场景 拆开统计，发现语言效应在不同场景间差异极大——有些场景语言帮忙比例高，有些场景反而以「有害」为主，但没有单一复杂度指标能稳定预测语言是否有用。

44 类 Bench2Drive 场景中，语言生成对驾驶成功率的影响分布（有帮助 / 中性 / 有害）。

更有意思的发现来自模型内部：在冻结的 VLA 最后一层 hidden states 上，用简单 logistic regression 就能把「语言有帮助的帧」和「没帮助的帧」分开，不需要 额外引入场景复杂度或车辆运动学特征——效用信号已经编码在表征里了，只是默认每帧全开语言时从未被利用。

团队还构造了一个路线级 oracle ：对每条路线，直接选「语言模式」和「直接动作模式」里表现更好的那个。即便这种每路线只做一次选择 的粗粒度 oracle ，成功率也能到 78.4%，比默认 SimLingo 的 67.27% 高出超过 10 个百分点。 oracle 还是保守估计——更细粒度的逐帧选择理论上还能更高。路线级 oracle 已把上限抬到 78.4%，说明轻量 gate 不必动 backbone ，就能挖出被浪费的性能空间。

BLUE 方法： 0.11M gate ，冻结 backbone ，标签来自闭环评测

BLUE （B etter L anguage U se in Efficient VLA ）的核心设计极其克制：视觉编码器和 LLM backbone 全部冻结，只训练一个单隐藏层 MLP gate ，参数量 0.11M。

BLUE 整体框架： gate 读取冻结 VLA 的 hidden state ，逐帧决定激活语言生成或直接输出 waypoints ；训练标签来自闭环评测结果。

数据收集与标注

训练数据来自 SimLingo 训练集约 400 条路线。对每条路线，分别以「语言模式」和「直接动作模式」跑重复实验，收集每个帧在最终 token 位置的最后一层 hidden state 。这个位置对应语言或 waypoint 生成开始前的表征，两种模式共享，保证特征对齐。

路线级标签根据成功率差距定义：

其中是随机种子集合，表示成功率，阈值。设计逻辑是：默认走更快的直接动作模式，除非语言模式展现出明确优势。

帧级标签在路线级基础上进一步细化。对语言有益的路线（），只标记行为分歧最大的关键区域：

是路线跨种子的语言优势均值，是帧的空间坐标。训练时混合路线级和帧级样本，让 gate 同时学到「哪些路线偏好语言」和「路线内哪些片段需要语言」。

针对时序冗余（比如停车时连续帧特征几乎相同），团队把余弦相似度的连续帧分组，每组长度下采样到个代表样本，避免 gate 过拟合静止片段。

Gate 设计与推理

Gate 是单隐藏层 MLP （隐藏维度 128 ，带 dropout ），用二元交叉熵训练。推理时，每帧先走两种模式共享的前向过程得到， gate 输出分数：超过阈值则继续语言生成，否则直接输出动作。阈值，来自语言效应三类划分（有帮助 / 中性 / 有害）对 gate 输出区间的三等分边界，无需在测试集上调参。

整套流程不需要额外人工标注，标签完全来自常规闭环驾驶评测——这让 BLUE 更像一个「后装插件」，而不是一次昂贵的大修。

闭环成绩：单前视相机拿下双 benchmark SOTA

Bench2Drive 主结果

在覆盖 220 条路线、 44 类场景 的 Bench2Drive 上， BLUE 拿到当前 VLA 方法中的最好成绩：

这组数字的分量在于配置极简：只用单前视相机、无 LiDAR、只需语言标注，却超过了多种采用 6 摄像头、 LiDAR 或密集辅助标签（ 3D 检测、地图、语义分割、深度等）的闭环方法。 TakeVLA （ 73.73% SR ）、 CriticVLA （ 73.33%）、 BevAD （ 72.73%， 6 摄像头）都被甩在身后。

多能力细分上， BLUE 在五项驾驶技能（并线、超车、紧急制动、让行、交通标志）的均值成功率 73.89%，排名第二，仅次于用 6 摄像头的 BevAD （ 74.68%）。超车成功率 80.00%（+12.59 ）、紧急制动 93.27%（+11.60 ）提升尤其明显——这些恰恰是语言「该出手时出手」最能发挥价值的场景。

Longest6 v2 长程驾驶

Longest6 v2 考察长程闭环中的驾驶质量维持能力。 BLUE 在这里同样登顶：

路线完成率 +14 个百分点，说明减少无效或有害语言，能在长闭环中抑制误差累积——那些本可直出的帧如果硬走语言链路，错误会一路滚到终点。

推理效率

效率收益和性能收益同步到来：

指标	SimLingo	BLUE	变化
FPS	0.72	1.82	+154%
延迟 (ms)	1396.6	549.5	-60.7%
加速比	1×	2.54×	—

Bench2Drive 评测路线上，各方法逐帧平均延迟分布。 BLUE 将 SimLingo 和 CriticVLA 的延迟整体左移。

Gate 本身几乎不增加开销——它只是一个作用于已算好的 hidden state 上的 MLP 。 BLUE 在约 21.44% 的帧上激活语言生成，其余帧跳过 autoregressive 解码，延迟从 1.40s 降到 0.55s 。换到 CriticVLA backbone 上，加速幅度更夸张：4.50×，平均延迟从 3424.7ms 降到 760ms 量级。

消融实验： gate 学到了什么，又不是什么

激活模式：稀疏且连续

Gate 学到的语言激活模式：多数帧跳过语言，激活点形成连续片段而非孤立噪点。

可视化显示， gate 在大多数帧上跳过语言，激活点形成连续片段——比如进入复杂路口前的一段、需要判断行人意图的窗口——而不是帧级随机闪烁。这说明 hidden states 捕获了时序连贯的决策模式，而不是在噪声上做投机。

规则 gate 全面落败

团队试了速度、加速度、转向角三类运动学规则 gate ，以及基于场景复杂度的规则 gate ，还有随机 gate 。结果一致：全部远低于 BLUE。

Gate 策略	SR (%)	语言激活率 (%)
速度规则 gate	70.97–71.81	30–55
加速度规则 gate	70.08	49
转向角规则 gate	70.71	8
复杂度规则 gate	70.98–71.40	17–54
随机 gate	67.42–70.96	20–80
BLUE	76.18	21.44

运动学特征只反映车辆当前运动状态，无法判断「语言会不会改善驾驶」；场景复杂度是粗粒度路线标签，抓不住帧级动态。 VLA hidden states 联合编码了感知和上下文，才是更强的预测信号。

跨模型泛化：每个 backbone 需要自己的 gate

BLUE 同样适用于 CriticVLA ： Bench2Drive SR 从 73.33% 提到 76.04%， Longest6 v2 DS 从 34 提到 36.2 、 RC 从 66 提到 80.6 。但把 SimLingo 上训练的 gate 直接搬到 CriticVLA ，效果会掉一截（ 73.11% vs 76.04%）。语言效用信号与模型内部表征绑定，不同 VLA 需要各自训练 gate——好在 gate 只有 0.11M ， backbone 完全冻结，适配成本远低于重训大模型。

阈值与数据量

阈值对语言激活率和成功率的影响。区间都表现稳健。

过低（几乎每帧都生成语言）时 SR 降到 66.91%；过高（每帧都跳过语言）时 SR 为 69.55%。的 76.18% 远超两端极端设置，验证了按需启用的必要性。

训练数据量对 gate 性能的影响：用一半路线（约 200 条）就已明显超过 SimLingo backbone 。

训练路线从 10% 增到 100%， SR 和 DS 稳步上升。只用一半数据（约 200 条路线）， gate 就已超过 SimLingo backbone ，说明 hidden states 里的语言效用信号用中等数据量就能学到。

语言内容也在变

闭环驾驶中生成语言的 N-gram 词云：左为 SimLingo 每帧生成，右为 BLUE 按需生成。

词云对比显示， BLUE 激活语言时生成的短语更聚焦、更少冗余——gate 筛掉了大量「说了也白说」的帧，留下的语言更集中在真正需要推理的片段。

小结

博世 Research 的 BLUE 用约 2000 GPU hours 的闭环分析，先把「语言在驾驶里到底帮不帮」这件事量清楚了，再基于 hidden states 训练 0.11M gate 做逐帧决策。闭环结果汇总如下：

■Bench2Drive ：76.18% Success Rate 、90.58 Driving Score （+8.91 / +5.51 ）

■Longest6 v2 ：36 Driving Score 、84 Route Completion （各 +14 ）

■推理：2.54× 加速，延迟 1396.6ms → 549.5ms

■配置：单前视相机、冻结 backbone 、无额外人工标注

BLUE 最值得关注的，不只是它把分数刷高了，而是它重新定义了自动驾驶 VLA 里语言的角色。

语言不是免费的解释文本，而是一段会真实改变动作分布和推理时延的中间计算。既然如此，真正有效的方向就不该只是“让模型生成更多语言”，而应该是“只在语言能改善驾驶时生成语言”。

从这个角度看，BLUE 的贡献可以概括成一句话：它证明了自动驾驶 VLA 的语言能力，不是靠更长的 reasoning chain 获得的，而是靠更好的启用时机获得的。

这也是它能够同时拿到更高闭环成绩和更快推理速度的根本原因。

⭐️关注我，实时跟进 AI 最新进展⭐️

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

博世首发BLUE:只加0.1M参数,自动驾驶VLA提速2.5倍还拿下SOTA

14.5% 的路线靠语言赢， 23.6% 的路线被语言拖垮

场景复杂度猜不准， hidden states 里却藏着信号