当前位置：首页>自动驾驶>统一语言-动作理解与生成以用于自动驾驶

统一语言-动作理解与生成以用于自动驾驶

2026-03-24 16:07:17

26年3月来自浙大和理想汽车的论文“Unifying Language-Action Understanding and Generation for Autonomous Driving”。

视觉-语言-动作（VLA）模型正逐渐成为端到端自动驾驶领域极具前景的范式，其价值在于能够利用世界知识并推理复杂的驾驶场景。然而，现有方法存在两个关键局限性：语言指令与动作输出之间持续存在的不匹配，以及典型自回归动作生成方法固有的低效性。本文提出一种名为LinkVLA的架构，旨在直接解决这些挑战，从而提高匹配度和效率。首先，通过将语言和动作token统一到一个共享的离散码本中，并在单个多模态模型中进行处理，从而建立结构性联系。这从根本上实现跨模态的一致性。其次，为了建立深层的语义联系，引入一个辅助动作理解目标（objective），该目标训练模型从轨迹中生成描述性字幕，从而促进双向的语言-动作映射。最后，用一种由粗-到-精的两步生成方法（C2F）取代缓慢的逐步生成方法，该方法能够高效地解码动作序列，节省86%的推理时间。

如图所示：LinkVLA 不仅大幅降低推理延迟，而且在指令跟踪准确性和驾驶性能方面也取得持续的提升。

如图所示，LinkVLA 是一种视觉-语言-动作（VLA）模型，旨在提升自动驾驶中的语言-动作一致性和推理效率。其方法引入三项创新。首先，建立一个统一的自回归框架，将语言和动作词符建模于单一离散空间中；其次，为了增强语义一致性，引入一种动作理解目标，促进语言和轨迹之间的双向映射；第三，用一种高效的由粗-到-精的生成机制取代缓慢的顺序解码，从而显著降低推理延迟。

统一token化框架

自动驾驶中的语言-动作不匹配是模态架构割裂的直接后果。为了消除这种割裂，本方法基于统一原则：在单一的统一框架内对整个过程（从理解指令到生成轨迹）进行建模。该方法将语言指令 L 和动作轨迹 T 映射到一个统一的离散token序列，然后由 VLM 主干网络进行处理。对于语言，利用 VLM 现有的token化器。对于本质上连续的动作，设计一种空间-觉察的动作token化方案。模型不是回归连续值，而是根据token化后的码本预测一系列动作token。

统一token空间。该方法基于一个统一的语言和动作token空间。首先对连续轨迹进行量化来实现这一点：局部鸟瞰图（BEV）空间被划分成一个由 K_action 单元格组成的网格，每个单元格定义一个唯一的动作token。轨迹 T = {w_1,...,w_T} 通过将每个路径点映射到其对应的单元格，转换为动作token序列 A = {a_1,...,a_T}。然后，将此动作码本（C_action）与模型的文本词汇表（大小为 K_text）合并，形成一个大小为 K = K_text + K_action 的统一码本 C。动作token嵌入以端到端的方式学习，迫使模型将语言和空间概念映射到共享表示中，从而使单个 VLM 模型能够同时处理两者。在推理过程中，每个预测的动作token只需解码回其对应网格单元格的中心即可。

动作token化。朴素的token化方法使用one-hot编码将航点token化到均匀的BEV网格上，存在两个关键问题。首先，均匀网格均匀分配分辨率，无法提供近场控制所需的精细精度。其次，硬性分配one-hot编码标签会忽略网格固有的空间拓扑结构，使空间先验的学习变得复杂。为了缓解这些问题，引入两项改进：对数坐标变换和空间软标注。

1）对数坐标变换。设计一种非均匀量化方案，优先考虑自车附近的精度。这是通过首先对航点坐标 (x, y) 沿每个轴独立地应用非线性变换来实现的。具体来说，每个坐标 z ∈ {x, y} 使用带符号的对数函数进行变换：

z′ = sign(z) · log(1 + k · |z|)

这里，k 是一个正缩放因子，用于控制原点周围线性区域的大小。由此得到的变换空间 (x′, y′) 随后被均匀量化，以生成动作tokens。

2) 空间软标注。为了将关于动作空间连续性的物理先验信息嵌入到学习目标中，采用一种空间软标注策略。标准的one-hot编码目标提供一个离散的监督信号，但并没有显式地考虑动作网格的空间拓扑结构。本方法通过定义一个平滑的目标分布来改进这一点，该分布考虑空间邻接性。

具体来说，对于一个真实token a_gt，构建所有动作token a ∈ C_action 的目标分布 q(a)，该分布是一个以 a_gt 的坐标为中心、半径为 R 的归一化二维高斯分布q(a) 。对于动作生成，模型预测的分布 p(a) 会使用交叉熵损失 L_generation 进行优化，以匹配该软目标。

该目标鼓励模型不仅为正确的token分配概率质量，还根据高斯形状为其空间邻域分配概率质量。这有利于形成局部平滑的动作流形，使模型对细微的真实值误差更加鲁棒。当引入思维链时，会在该目标中添加一个用于语言生成的标准交叉熵损失。

最终的训练目标是这两个损失的加权和：L_total = L_generation + λL_understanding，其中 λ 是一个平衡超参。通过强制模型解决这个逆问题，确保共享嵌入空间内的双向一致性。这一过程丰富动作token的语义基础，确保它们与描述性语言概念内在关联，从而提升指令执行能力。实际上，这两个任务由同一个解码器处理，只需简单地交换文本指令 L 和动作token A 作为预测目标的角色即可。

由粗-到-精的动作生成

自回归生成包含 T 个路径点的长轨迹需要 T 次连续的前向传播，这计算成本高昂，并且会引入显著的推理延迟。为了解决这个问题，将 T 步序列依赖关系简化为一个两阶段过程：（1）终点预测和粗略轨迹初始化，以及（2）并行轨迹细化。参考 [37]，动作输出包括时间速度路径点和几何路径点。由于两者都被视为点序列并在框架中对称处理，为了清晰起见，将它们统称为轨迹，将其组成部分称为路径点。

用粗略轨迹先验进行训练。通过精心设计的训练目标来实现由粗-到-精的推理。为了直接预测终点，在解码器输入序列的开头放置特殊tokens。在训练过程中，真实目标序列被重新排序为 {w_T, w_1, w_2, ..., w_T−1}，从而教会模型将特殊tokens与终点预测关联起来。在细化阶段，用真实终点通过线性插值模拟粗略轨迹，将其量化为粗略路径点tokens作为模型输入，并训练模型将这些粗略tokens映射到相应的细粒度轨迹。

粗略轨迹初始化。在推理过程中，首先为轨迹建立一个强结构先验，用于指导后续的生成步骤。利用改进的训练序列，模型执行一次前向传播以精确预测最终路径点 wˆ_T。虽然这一初始步骤的灵感来源于目标点预测方法 [55]，但该方法本质上是不同的，因为其将终点预测和轨迹细化集成在一个统一的 Transformer 架构中。

给定起点 w_0（自车原点位于 (0, 0)）和预测的终点 w_T，通过线性插值构建粗略轨迹 W_coarse。然后，这些路径点被token化为轨迹tokens，作为后续细化阶段的初始框架。

并行轨迹细化。第二个推理步骤将粗略的直线路径细化为动态可行的轨迹。将其表述为结构保持细化，其中每个粗略路径点 w^coarse^_i 都被映射到其对应的细化路径点 w^fine^_i。给定token化的粗略路径点作为初始输入，LinkVLA 并行预测 T 个细化点。在视觉语言上下文（通过交叉注意机制）的约束下，细化路径能够遵守车道边界、避开障碍物并遵循语言指令。

动作生产和理解如图所示：左图理解，右图生成。

设置

Bench2Drive。用 Bench2Drive 基准测试 [19] 对 LinkVLA 进行训练和评估。该基准测试在广泛使用的 CARLA 模拟器 [7] 中提供一系列交互式场景。遵循 SimLingo [37] 的方法，并使用开源专家级 PDM-lite [41] 在 CARLA 模拟器中收集驾驶数据集。评估遵循 CARLA v2 端到端自动驾驶闭环协议，包含 44 个交互式场景，每个场景 5 条路线，总共 220 条官方路线，涵盖各种天气条件。用基准测试的官方指标来报告性能：驾驶评分 (DS)、成功率 (SR)、效率、舒适性和多用途能力。

指令跟随评估。用来自 SimLingo [37] 的 Action Dreaming 数据集来评估模型的指令跟随能力。该数据集旨在评估模型不仅能够理解语言中特定场景的知识，还能将这种理解转化为相应的动作空间。

给定一条自然语言指令，模型需要生成与该指令对应的一系列动作。评估在 CARLA Town 13 dreamer 数据集上进行验证。指令分为六类：减速、加速、达到目标速度、变道、以物体为中心。性能指标为成功率。

DriveLM-hard（VQA）和评论。在 DriveLM-hard 基准测试集 [37] 上评估 VQA 和评论生成能力。这个具有挑战性的验证集源自 DriveLM [41]，并专注于 CARLA Town 13 环境。为了确保测试的平衡性，包含罕见情况，基准测试集采用均匀抽样的方式构建，每种答案类型抽取 10 个样本，而不是简单的随机抽样。最终数据集包含 330 种 VQA 答案类型和 190 种评论类型。用 SPICE、BLEU 和 ROUGE-L 指标报告评分。

实现细节

动作token化。该框架在一个鸟瞰图（BEV）空间中运行，坐标范围为 x ∈ [0, 50]m 和 y ∈ [−30, 30]m。为了创建离散的动作空间，首先使用第 3.1 节中详述的对数函数（超参数 k = 5）对这些坐标进行变换，然后将其离散化为步长为 0.1 的均匀网格。此过程生成一个 56 × 101 的网格，构成一个包含 K_action = 5,656 个离散动作tokens的词汇表。对于空间软标注过程，采用邻域加权半径 R = 10 个单元格和高斯标准差 σ = 1.2。此外，为了实现由粗到精（C2F）框架的分层动作生成，引入了两个特殊tokens：路径目标token和航点目标 token。

训练细节。用 Mini-InternVL 系列 [9] 中的 InternVL2-1B 作为主要架构。InternVL2-1B [9] 模型由视觉编码器 InternViT-300M-448px (ViT) [4] 和语言模型 (LLM) Qwen2-0.5B-Instruct [43] 组成。用 AdamW 优化器 [26] 和余弦学习率调度来训练模型。超参数设置如下：基础学习率为 1e-4，权重衰减为 0.1，β1 = 0.9，β2 = 0.999，dropout 率为 0.1。该模型在 32 个 H2O GPU 上训练 30 个 epoch，批大小为 48。模型自适应方面，参考 SimLingo [37] 的方法，应用 LoRA [12]，秩为 32，α = 64。

推理过程中，采用思维链 (CoT) 方法。首先，模型生成动作的文本解释。基于此解释，模型预测最终的动作序列。该输出包含每帧 20 个几何路径tokens和 10 个时间路径点tokens。

统一理解与生成。将 (V, L, A) 元组随机连接成：1) [V, A, L]，并监督 L 以理解动作；或 2) [V, L, A]，并监督 A 以生成动作。两者均与 L_total 一起训练。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

统一语言-动作理解与生成以用于自动驾驶

统一token化框架

由粗-到-精的动作生成

设置

实现细节

最新文章

热门文章

随机文章

统一语言-动作理解与生成以用于自动驾驶

统一token化框架

由粗-到-精的动作生成

设置

实现细节

皖AA93006别克牌小型轿车一辆

LaST-VLA:自动驾驶中视觉-语言-动作在潜时-空空间的思考

最新文章

热门文章

随机文章