点击下方卡片,关注“人工智能AI与算法”公众号
LinkVLA 是目前把自动驾驶VLA模型的推理效率与量产落地之间的鸿沟拉得最平的一篇CVPR 2026论文。
Vision-Language-Action(VLA)模型,这几年在自动驾驶领域火得一塌糊涂。它的核心是:把视觉感知、语言理解和动作生成塞进同一个模型里,让车不仅能“看见”路况,还能“听懂”人话,然后自己打方向盘。

听起来很完美?但学术界和工业界一直心照不宣地绕着一个问题打转——VLA模型太慢了。
慢在哪?慢在动作生成的方式。
当前主流的VLA模型基本都采用自回归生成(auto-regressive generation)来输出动作序列。什么意思?就是模型要一个点一个点地“蹦”出轨迹,像挤牙膏一样。每一步都依赖上一步的结果,串行执行,毫无并行空间。
你在实验室里用A100跑一跑,问题不大。但你要把这套东西塞进车规级芯片上,在高速行驶中实时决策——361毫秒的推理延迟,够车跑出去十几米了。等模型算完,前面的障碍物可能已经不是刚才那个位置了。
这就是VLA模型从论文到量产之间最扎心的那堵墙。
LinkVLA这篇论文,就是来解决这个问题。
LinkVLA由浙江大学和理想汽车联合提出,被CVPR 2026收录。它没有堆参数、没有换更大的模型,而是从架构层面做了三件事——每一件都打在痛点最核心的位置。

Link 1:共享码本——让语言和动作说同一种话
语言和动作之间的“不对齐”到底是怎么来的?
根本原因在于,大多数VLA模型把语言和动作当成两种完全不同的模态来处理——语言走文本编码器,动作走回归或扩散模型,两个分支各玩各的,最后强行拼在一起。这种“后期缝合”的做法,天然就带着语义裂缝。
LinkVLA的做法狠多了:直接把语言token和动作token塞进同一个离散码本(shared discrete codebook)里。
具体怎么做的?他们把车辆周围的BEV空间划分成网格,每个网格对应一个唯一的动作token。然后把这个动作码本和模型的文本词表合并,形成一个统一的码本。
语言和动作从此在同一个空间里被建模。
这就好比两个人以前各说各的方言,中间还得配个翻译。现在直接统一了普通话,从底层就对齐了。模型在处理“请在前方路口左转”这句指令时,它用的那一套token表示,和它生成左转轨迹时用的那一套,是同一套。
根本性的语义一致,靠的不是后期对齐,而是前期统一。
Link 2:动作理解目标——让模型既能做也能说
共享码本解决的是“结构对齐”问题。但光有结构还不够,还得让模型真正理解“语言”和“动作”之间的语义映射关系。
LinkVLA的第二个创新是引入了一个辅助动作理解目标(auxiliary action understanding objective)。
听起来复杂,其实逻辑很简单:他们让模型从轨迹反推描述性的文字说明。
传统VLA模型只做一件事:给指令 → 出动作,单向的。LinkVLA加了一个反向任务:给一段行驶轨迹 → 让模型用自然语言描述“这辆车刚才做了什么”。
这个反向任务的妙处在于:它强迫模型建立双向的语言-动作映射。模型不只是学会了“听指令做动作”,还学会了“看动作说人话”。双向训练下来,模型对语言和动作之间关系的理解深度,远超单向训练。
这就像教一个人开车:光会踩油门刹车不算真会,得能边开边说出“我现在为什么减速、为什么打方向”,才算真正理解了驾驶逻辑。
Link 3:C2F生成策略——把86%的推理时间砍掉
前两个“Link”解决的是准不准的问题。第三个“Link”解决的是快不快的问题——这也是LinkVLA最有量产杀伤力的部分。
传统VLA模型采用逐歩自回归生成(step-by-step generation),一个点一个点地输出轨迹。LinkVLA换了一套思路,叫做粗到细两步生成(Coarse-to-Fine, C2F)。
怎么理解C2F?
第一步:粗粒度生成。模型先输出一个大概的轨迹轮廓——方向对、路径对,但精度不需要太高。这一步很快。
第二步:细粒度精调。在粗轮廓的基础上,只对关键区域做精细化调整,把精度补上去。
对比一下自回归的“一个点一个点地挤”,C2F相当于“先画草图、再精修”。计算量大幅下降,精度几乎没有损失。
效果有多炸裂?
推理延迟从361毫秒直接降到48毫秒——节省了86%。255 FPS的推理速度,是目前所有VLA模型中最快的。
361ms vs 48ms,这个差距在学术论文里可能只是一个数字。但在量产车上,这意味着一辆车在高速上少跑出去将近十米。这十米,可能就是撞上和没撞上的区别。
效率上去了,性能会不会打折?
这是任何一个做工程的人都会问的问题。LinkVLA给出的答案是:不仅没打折,还做到了SOTA。
在Bench2Drive闭环驾驶基准上,LinkVLA的驾驶得分、指令跟随成功率、多场景泛化能力全部达到了当前最优水平。同时推理速度还是所有VLA模型里最快的。
“效率”和“性能”这对在传统架构里必须二选一的矛盾,在LinkVLA这里被同时解决了。
如果你只关心学术创新,LinkVLA的三个技术点——共享码本、双向语言-动作映射、C2F生成——每一个都值得单独写一篇 ablation study。
但如果你关心的是模型能不能真正上车,那LinkVLA的意义远不止于此。
当前的VLA模型,绝大多数还停留在“实验室里跑得通”的阶段。模型动辄7B、13B参数,推理延迟动辄几百毫秒。学术圈发论文没问题,但工业界根本不敢往车上放。
LinkVLA是少有的、从一开始就把“量产可行性”作为核心设计目标的VLA工作。
理想汽车作为联合提出方,本身就带着强烈的工程视角。他们不是在做一个“论文里好看”的模型,而是在做一个“车规级芯片上能跑、高速场景下敢用”的模型。
86%的推理延迟降低,意味着VLA模型终于从“实验室玩具”变成了“可部署方案”。这不是一次渐进式优化,这是一次架构级的效率革命。
VLA模型的技术路线大概率是对的:把感知、语言、决策统一到一个模型里,这个方向没人质疑。
但这条路能不能走到量产?取决于效率。
LinkVLA用共享码本解决了模态对齐问题,用C2F解决了推理速度问题,用双向映射解决了语义理解问题。三个“Link”,每一个都踩在VLA落地的关键节点上。