当前位置：首页>自动驾驶>理想&浙大|自动驾驶VLA告别“龟速推理”!LinkVLA把延迟砍掉86%

理想&浙大|自动驾驶VLA告别“龟速推理”!LinkVLA把延迟砍掉86%

2026-06-24 09:27:41

点击下方卡片，关注“人工智能AI与算法”公众号

自动驾驶、机器人、具身智能重磅干货，第一时间送达

LinkVLA 是目前把自动驾驶VLA模型的推理效率与量产落地之间的鸿沟拉得最平的一篇CVPR 2026论文。

VLA模型的一个“房间里的大象”

Vision-Language-Action（VLA）模型，这几年在自动驾驶领域火得一塌糊涂。它的核心是：把视觉感知、语言理解和动作生成塞进同一个模型里，让车不仅能“看见”路况，还能“听懂”人话，然后自己打方向盘。

听起来很完美？但学术界和工业界一直心照不宣地绕着一个问题打转——VLA模型太慢了。

慢在哪？慢在动作生成的方式。

当前主流的VLA模型基本都采用自回归生成（auto-regressive generation）来输出动作序列。什么意思？就是模型要一个点一个点地“蹦”出轨迹，像挤牙膏一样。每一步都依赖上一步的结果，串行执行，毫无并行空间。

你在实验室里用A100跑一跑，问题不大。但你要把这套东西塞进车规级芯片上，在高速行驶中实时决策——361毫秒的推理延迟，够车跑出去十几米了。等模型算完，前面的障碍物可能已经不是刚才那个位置了。

这就是VLA模型从论文到量产之间最扎心的那堵墙。

LinkVLA这篇论文，就是来解决这个问题。

三个“Link”，把效率打上去

LinkVLA由浙江大学和理想汽车联合提出，被CVPR 2026收录。它没有堆参数、没有换更大的模型，而是从架构层面做了三件事——每一件都打在痛点最核心的位置。

Link 1：共享码本——让语言和动作说同一种话

语言和动作之间的“不对齐”到底是怎么来的？

根本原因在于，大多数VLA模型把语言和动作当成两种完全不同的模态来处理——语言走文本编码器，动作走回归或扩散模型，两个分支各玩各的，最后强行拼在一起。这种“后期缝合”的做法，天然就带着语义裂缝。

LinkVLA的做法狠多了：直接把语言token和动作token塞进同一个离散码本（shared discrete codebook）里。

具体怎么做的？他们把车辆周围的BEV空间划分成网格，每个网格对应一个唯一的动作token。然后把这个动作码本和模型的文本词表合并，形成一个统一的码本。

语言和动作从此在同一个空间里被建模。

这就好比两个人以前各说各的方言，中间还得配个翻译。现在直接统一了普通话，从底层就对齐了。模型在处理“请在前方路口左转”这句指令时，它用的那一套token表示，和它生成左转轨迹时用的那一套，是同一套。

根本性的语义一致，靠的不是后期对齐，而是前期统一。

Link 2：动作理解目标——让模型既能做也能说

共享码本解决的是“结构对齐”问题。但光有结构还不够，还得让模型真正理解“语言”和“动作”之间的语义映射关系。

LinkVLA的第二个创新是引入了一个辅助动作理解目标（auxiliary action understanding objective）。

听起来复杂，其实逻辑很简单：他们让模型从轨迹反推描述性的文字说明。

传统VLA模型只做一件事：给指令 → 出动作，单向的。LinkVLA加了一个反向任务：给一段行驶轨迹 → 让模型用自然语言描述“这辆车刚才做了什么”。

这个反向任务的妙处在于：它强迫模型建立双向的语言-动作映射。模型不只是学会了“听指令做动作”，还学会了“看动作说人话”。双向训练下来，模型对语言和动作之间关系的理解深度，远超单向训练。

这就像教一个人开车：光会踩油门刹车不算真会，得能边开边说出“我现在为什么减速、为什么打方向”，才算真正理解了驾驶逻辑。

Link 3：C2F生成策略——把86%的推理时间砍掉

前两个“Link”解决的是准不准的问题。第三个“Link”解决的是快不快的问题——这也是LinkVLA最有量产杀伤力的部分。

传统VLA模型采用逐歩自回归生成（step-by-step generation），一个点一个点地输出轨迹。LinkVLA换了一套思路，叫做粗到细两步生成（Coarse-to-Fine, C2F）。

怎么理解C2F？

第一步：粗粒度生成。模型先输出一个大概的轨迹轮廓——方向对、路径对，但精度不需要太高。这一步很快。

第二步：细粒度精调。在粗轮廓的基础上，只对关键区域做精细化调整，把精度补上去。

对比一下自回归的“一个点一个点地挤”，C2F相当于“先画草图、再精修”。计算量大幅下降，精度几乎没有损失。

效果有多炸裂？

推理延迟从361毫秒直接降到48毫秒——节省了86%。255 FPS的推理速度，是目前所有VLA模型中最快的。

361ms vs 48ms，这个差距在学术论文里可能只是一个数字。但在量产车上，这意味着一辆车在高速上少跑出去将近十米。这十米，可能就是撞上和没撞上的区别。

快，但不牺牲性能

效率上去了，性能会不会打折？

这是任何一个做工程的人都会问的问题。LinkVLA给出的答案是：不仅没打折，还做到了SOTA。

在Bench2Drive闭环驾驶基准上，LinkVLA的驾驶得分、指令跟随成功率、多场景泛化能力全部达到了当前最优水平。同时推理速度还是所有VLA模型里最快的。

“效率”和“性能”这对在传统架构里必须二选一的矛盾，在LinkVLA这里被同时解决了。

为什么值得一读？

如果你只关心学术创新，LinkVLA的三个技术点——共享码本、双向语言-动作映射、C2F生成——每一个都值得单独写一篇 ablation study。

但如果你关心的是模型能不能真正上车，那LinkVLA的意义远不止于此。

当前的VLA模型，绝大多数还停留在“实验室里跑得通”的阶段。模型动辄7B、13B参数，推理延迟动辄几百毫秒。学术圈发论文没问题，但工业界根本不敢往车上放。

LinkVLA是少有的、从一开始就把“量产可行性”作为核心设计目标的VLA工作。

理想汽车作为联合提出方，本身就带着强烈的工程视角。他们不是在做一个“论文里好看”的模型，而是在做一个“车规级芯片上能跑、高速场景下敢用”的模型。

86%的推理延迟降低，意味着VLA模型终于从“实验室玩具”变成了“可部署方案”。这不是一次渐进式优化，这是一次架构级的效率革命。

结语

VLA模型的技术路线大概率是对的：把感知、语言、决策统一到一个模型里，这个方向没人质疑。

但这条路能不能走到量产？取决于效率。

LinkVLA用共享码本解决了模态对齐问题，用C2F解决了推理速度问题，用双向映射解决了语义理解问题。三个“Link”，每一个都踩在VLA落地的关键节点上。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

理想&浙大|自动驾驶VLA告别“龟速推理”!LinkVLA把延迟砍掉86%

自动驾驶、机器人、具身智能重磅干货，第一时间送达

Link 1：共享码本——让语言和动作说同一种话

Link 2：动作理解目标——让模型既能做也能说

Link 3：C2F生成策略——把86%的推理时间砍掉

最新文章

热门文章

随机文章

理想&浙大|自动驾驶VLA告别“龟速推理”!LinkVLA把延迟砍掉86%

自动驾驶、机器人、具身智能重磅干货，第一时间送达

Link 1：共享码本——让语言和动作说同一种话

Link 2：动作理解目标——让模型既能做也能说

Link 3：C2F生成策略——把86%的推理时间砍掉

【四驱SUV】茶山龙脊踏云,邂逅高山草甸治愈风光

[庆祝]大型SUV 全款39800首付500[庆祝]

最新文章

热门文章

随机文章