当前位置：首页>自动驾驶>聊聊自动驾驶端到端大模型的那些事︱大模型自动驾驶

聊聊自动驾驶端到端大模型的那些事︱大模型自动驾驶

2026-02-26 00:57:37

会议推荐

2026首届中国汽车企业项目管理大会

2026第二届中国AI项目管理大会

2026第十五届中国PMO大会

2026第五届中国项目经理大会

2026第三届中国医药企业项目管理大会

本文目录

端到端大模型的未来：自动驾驶与具身智能的深度融合

详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

高通发布论文：蒸馏多模态大模型框架，实现端到端自动驾驶

Senna：连接大型视觉-语言模型和端到端自动驾驶

一、端到端大模型的未来：自动驾驶与具身智能的深度融合

（原创智慧星河AI 智明AI趣）

科技的迅猛发展正在重新定义我们的出行方式，自动驾驶技术便是其中最引人瞩目的代表之一。从最初的无人驾驶概念到如今的Robotaxi，智能驾驶已经从实验室走向现实。而在这场技术革新的背后，端到端的大模型，尤其是视觉-语言-动作（VLA）模型，正成为推动行业进步的核心力量。2025年，VLA模型有望在自动驾驶及智能机器人领域掀起新一轮的技术革命。

VLA模型：让AI“看、听、行”

在深入探讨VLA模型之前，我们先了解一下视觉语言模型（VLM）。VLM通过结合视觉信息和自然语言处理，使计算机能够理解图像和文本之间的关系。举个例子，VLM可以分析一张街景图像，并生成描述其中内容的文字。这种能力类似于人类通过观察和语言交流来理解世界。

然而，VLM仅仅具备了“看”和“听”的能力。VLA模型则进一步赋予了AI“行动”的能力，使其不仅能理解视觉和语言信息，还能根据这些信息执行具体的动作。想象一下，一个自动驾驶汽车不仅能识别交通信号灯，还能理解司机的指令，如“左转”，并准确地执行这一动作。这种多模态融合，使得VLA模型在复杂环境下的决策和执行能力大大提升。

从理解到行动

要深入理解VLA模型的运作机制，数学公式是不可或缺的工具。VLA模型的核心在于将视觉特征x和语言特征t融合，并生成动作指令a。这一过程可以用以下公式表示：

损失函数与模型优化

编程实现：从理论到实践

理解了VLA模型的数学基础后，让我们通过一个简化的编程示例，看看如何将视觉和语言特征融合并生成动作指令。这不仅让理论变得具体，还能帮助你更直观地理解VLA模型的工作原理。

VLA模型的简化实现

代码详解：一步步走进VLA模型

让我们逐步拆解这段代码，看看每一部分是如何协同工作的。

1.视觉特征提取：卷积神经网络（CNN）

目的：从输入图像中提取视觉特征。
结构：这个CNN由两个卷积层和两个池化层组成。每个卷积层后面跟着一个ReLU激活函数和一个最大池化层，用于提取图像中的关键特征并减少维度。
输出：forward方法将图像通过卷积层处理后，展平成一维向量，作为视觉特征x。

2.语言特征提取：自然语言处理模型（NLP）
3.多模态融合与动作预测
这段代码展示了如何将VLA模型从理论转化为实际应用，通过视觉和语言特征的提取与融合，实现从输入到动作的端到端训练。
VLA模型的核心优势

训练模式：调用model.train()将模型设为训练模式，启用诸如Dropout等训练特定的功能。
数据加载：从数据加载器（dataloader）中获取一批图像、文本和动作标签。
前向传播：通过模型生成输出动作指令。
损失计算：计算预测动作与真实动作之间的损失。
反向传播与优化：通过loss.backward()计算梯度，并通过optimizer.step()更新模型参数。

模型实例：创建CNN特征提取器和NLP特征提取器，并将它们传递给VLA模型。
损失函数：使用交叉熵损失（nn.CrossEntropyLoss），适用于多分类任务。
优化器：使用Adam优化器（optim.Adam），它结合了动量和自适应学习率，能够更高效地优化模型参数。

初始化：
训练循环：

4.模型训练与优化

视觉特征：通过CNN提取图像特征x。
语言特征：通过NLP模型提取文本特征t。
特征融合：使用torch.cat将视觉特征和语言特征在特征维度上拼接，形成联合特征。
动作预测：通过全连接层（nn.Linear）将联合特征转换为动作指令a。

目的：融合视觉和语言特征，生成动作指令。
结构：
输出：动作指令a，表示模型根据视觉和语言输入做出的决策。

目的：将输入的文本指令转换为语言特征。
结构：首先使用嵌入层（nn.Embedding）将词汇表中的每个词转换为固定大小的向量。然后通过LSTM（长短期记忆网络）处理这些嵌入向量，捕捉文本中的上下文信息。
输出：forward方法返回LSTM的隐藏状态，作为语言特征t。

通用性与可扩展性

VLA模型的通用性体现在它能够应用于多种智能设备，不仅限于自动驾驶汽车。无论是飞行器、家用机器人还是工业自动化设备，只需对VLA模型进行适当的微调，即可适应不同的任务需求。这种高度的可扩展性，使得VLA成为未来智能设备统一的AI架构。

性能优化与资源节约

VLA模型通过自然语言和视觉信息的融合，能够显著降低对计算资源的依赖。其训练过程中，通过共享参数和多任务学习，减少了重复的数据处理和计算，提高了整体效率。例如，在自动驾驶中，VLA模型可以在不同的驾驶场景下共享部分计算资源，从而提高系统的整体性能。

技术挑战与未来发展

尽管VLA模型展现出巨大的潜力，但其在实际应用中仍面临诸多挑战。

模型规模与计算需求

VLA模型通常包含数十亿个参数，这对计算资源提出了极高的要求。以OpenVLA模型为例，其7B参数的模型在推理过程中需要大量的计算能力，导致响应速度较慢。在实时应用中，如自动驾驶，延迟可能导致严重的安全问题。因此，优化模型结构和提高计算效率成为亟待解决的问题。

其中，FLOPs表示每秒浮点操作数，Hardware Efficiency表示硬件的效率。通过减少FLOPs或提升硬件效率，可以有效降低推理时间。

数据集与标注挑战

VLA模型依赖于大量高质量的数据进行训练，尤其是在自动驾驶领域，需要涵盖各种复杂的道路和交通情况。目前，缺乏能够有效结合视觉数据和语言描述的大规模数据集，成为VLA模型发展的瓶颈。高质量的数据标注通常需要大量人工参与，增加了数据获取的难度和成本。

车企的布局与应用前景

尽管VLA模型尚未完全成熟，但多家车企和技术公司已经开始布局这一领域。

谷歌DeepMind的RT-2模型

2023年7月，谷歌DeepMind推出了全球首个用于控制机器人的VLA模型——RT-2。该模型基于VLM和机器人运动数据，通过将机器人动作表示为文本标记，实现了从视觉和语言到动作的端到端控制。RT-2在新物体、背景和环境中的泛化能力显著，能够根据自然语言指令执行复杂的推理任务。

OpenVLA模型

由斯坦福大学、加州大学伯克利分校、谷歌DeepMind和丰田研究院联合开发的OpenVLA模型，进一步推动了VLA技术的开源和商业化应用。OpenVLA通过融合视觉编码器（如Vision Transformer，ViT）和大型语言模型（如Llama2-7B），能够将图像信息转化为动作指令，广泛应用于智能机器人和自动驾驶系统中。

国内车企的积极布局

国内车企如元戎启行和理想汽车，已开始将端到端模型应用于量产车中。元戎启行在2024年初宣布将VLA模型适配到量产车上，并计划在年底前投入市场。理想汽车也在积极推进VLM技术的应用，预示着VLA模型将在国内自动驾驶领域掀起新的竞争高潮。

边缘计算与实时响应的结合

为了使VLA模型在自动驾驶中实现实时响应，边缘计算技术的支持至关重要。边缘计算将数据处理和计算任务从云端转移到离数据源更近的设备上，显著减少了数据传输的延迟。

实时决策的重要性

在自动驾驶中，车辆需要在极短的时间内做出决策。例如，当一个行人突然穿过马路时，车辆必须在几毫秒内响应，确保行车安全。边缘计算通过在车辆内部部署高效的计算单元，使得VLA模型能够快速处理传感器数据并生成决策指令。

计算优化的策略

为了应对高计算需求，研究人员提出了多种优化策略，包括模型剪枝、量化和知识蒸馏等。这些方法通过减少模型的参数数量或精度，降低计算负担，同时尽量保持模型的性能。

代码详解：模型剪枝

1.导入必要的库

torch：PyTorch的核心库，用于构建和训练神经网络。
torch.nn.utils.prune：PyTorch提供的模型剪枝工具，用于减少模型的复杂度和计算需求。

2.定义一个简单的全连接层
创建一个全连接层（Linear layer），输入特征维度为512，输出特征维度为10。这意味着这个层将接收一个512维的输入向量，并输出一个10维的向量，通常用于分类任务中的10个类别。
3.对全连接层进行剪枝
4.查看剪枝后的参数
打印剪枝后的权重参数。被剪枝的连接权重会被替换为零，表示这些连接已被移除。

prune.l1_unstructured：一种基于L1范数的无结构剪枝方法。
fc：要剪枝的层。
name="weight"：指定剪枝对象为层的权重。
amount=0.3：剪枝比例，表示剪掉30%的连接。L1范数越小的连接将被优先剪掉，因为它们对模型的输出影响较小。

剪枝的意义与应用

模型剪枝通过减少神经网络中的冗余连接，降低模型的参数数量和计算需求，从而提高推理速度和降低内存消耗。这对于部署在资源有限的边缘设备（如自动驾驶汽车内部的计算单元）尤为重要。剪枝不仅能提升模型的效率，还能在某些情况下减少过拟合，提升模型的泛化能力。

VLA模型的广泛应用与未来展望

VLA模型不仅在自动驾驶领域展现出巨大潜力，还将在智能机器人、无人机和智慧城市等多个领域发挥重要作用。通过将视觉、语言和动作相结合，VLA模型能够为各种智能设备提供更加人性化和灵活的控制能力。

智能家居与机器人

在智能家居领域，VLA模型可以让家用机器人更好地理解用户指令并执行任务。例如，当用户说“请帮我拿一下桌上的杯子”，机器人不仅能识别杯子的位置，还能理解拿取动作的细节，精准地完成任务。这不仅提高了机器人在家庭中的实用性，也让人与机器的互动更加自然。

无人机与物流

在无人机和物流领域，VLA模型能够提升无人机的自主导航和任务执行能力。通过结合视觉和语言指令，无人机可以更智能地规划飞行路径，避开障碍物，并根据指令完成货物的运输和投递。这种智能化的无人机系统，将大幅提升物流效率，降低运营成本。

智慧城市与公共安全

在智慧城市建设中，VLA模型可以用于监控和公共安全系统。通过实时分析摄像头图像和紧急指令，系统能够快速响应突发事件，提高城市管理的效率和安全性。例如，当监控系统检测到火灾信号并接收到消防指令后，VLA模型可以立即调度相关设备进行灭火操作，极大地提升了应急响应的速度和准确性。

反思与未来挑战

尽管VLA模型带来了许多令人兴奋的技术进步，但我们也需要正视其带来的挑战。首先，模型的高计算需求和数据标注难题仍需解决。其次，随着AI技术的广泛应用，伦理和隐私问题也亟待关注。例如，如何确保自动驾驶系统的决策透明度和公正性，避免算法偏见，是我们必须思考的重要课题。

技术与伦理的平衡

在推动VLA模型发展的同时，我们需要制定相应的伦理规范，确保技术的应用不偏离人类的价值观和社会规范。通过透明的算法设计和严格的数据保护措施，可以在技术进步与伦理责任之间找到平衡点。例如，在自动驾驶中，确保模型在不同交通状况下公平地做出决策，避免因训练数据偏见导致的歧视性行为，是确保技术被广泛接受和信任的关键。

总结：从科幻到现实的跨越

VLA模型作为未来自动驾驶和智能机器人领域的核心技术，正在将科幻变为现实。它通过深度学习和多模态融合，赋予AI更强的理解和执行能力，使得智能设备能够更好地适应复杂环境，提升人类的生活质量。随着技术的不断进步和应用的广泛推广，VLA模型必将在智能时代扮演更加重要的角色，推动人工智能向更高层次的发展。

让我们期待，一个不仅能看懂、听懂，还能精准行动的智能世界，正在一步步走进我们的生活。

二、详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

（原创李安琪 36氪汽车）

像海鲜市场一样，智能驾驶行业技术浪潮正在快速更迭。“端到端”刚成为新的技术范式，甚至大量公司还没来得及完成研发模式切换，端到端就进入了技术换代时期。

“端到端”的最新进化方向是，深度融入多模态大模型。

过去两年，大模型已经展现出了读文、识图、拍电影的能力，但大模型开车恐怕还是头一遭。

近期，智驾端到端领域出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA（Vision-Language-Action Model，即视觉-语言-动作模型），拥有更好的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

事实上，VLA模型最早见于机器人行业。2023年7月28日，谷歌DeepMind推出了全球首个控制机器人的视觉语言动作（VLA）模型RT-2。

目前这个模型概念正快速扩散到智驾领域。今年10月底，谷歌旗下自动驾驶公司Waymo推出了一个基于端到端的自动驾驶多模态模型EMMA。有行业人士表示，这就是一个VLA模型架构，既有端到端智驾能力，还融合了多模态大模型。

过去，智能驾驶行业基于规则算法，进行了十数年探索。近两年，特斯拉引领的“端到端”智能驾驶，成为新的技术方向，不仅让智驾具备更拟人的表现，也能应对城市中海量的复杂交通场景。

配合“端到端”技术，行业玩家还会增加大语言模型等来提升智驾能力上限。比如端到端+VLM（视觉语言模型），就被理想等公司推崇。

不过，VLM模型着重于图像和场景的理解，作为智驾决策规划输入，让车辆行为更合理；而VLA模型，会将端到端与多模态大模型结合得更彻底，能够根据感知直接生成车辆的运动规划和决策。

某种程度上看，VLA模型比VLM更加接近“图像输入、控制输出”的端到端智驾理想状态。特斯拉没有公开过端到端的技术路线，但行业用多模态大模型，有机会实现类似效果。

可以说，VLA是“端到端+VLM”技术框架的“终结者”。就连理想人士也向36氪汽车坦承，“可以把VLA看成是端到端+VLM的合体。”

有行业人士表示，VLA模型对智驾的演进意义重大，在L2辅助驾驶到L4自动驾驶的飞跃中，VLA可能会成为关键跳板；另一方面，VLA模型也可能成为智能驾驶走向更广阔的具身智能行业的连接点。

一些车企智驾玩家已经在暗自发力。此前，理想汽车曾在三季度财报电话会议上表示，内部已经启动了L4级别自动驾驶的预研，在当前的技术路线基础上，研发能力更强的车端VLA模型与云端世界模型相结合的强化学习体系。

智驾公司元戎启行在获得长城汽车的7亿元注资之后，也表示将进一步布局VLA模型。元戎启行称，公司将基于英伟达最新智驾芯片Thor进行VLA模型研发，模型预计于2025年推出。

但也存有共识，VLA模型的上车难度不小，对技术和车端的芯片算力都有高强度要求，“能够支持VLA模型上车交付的芯片，可能在2026年才会出现。”

「端到端最新方向：深度融入多模态大模型」

自2023年以来智驾行业掀起的BEV、端到端技术浪潮后，智驾正逐步将AI神经网络融入感知、规划、控制等环节。比起传统基于规则的方案，基于AI、数据驱动的“端到端”拥有更高能力天花板。

图源：元戎启行

但在“端到端”模型之外，车企们还辅以了大语言模、视觉语言模型等外挂，来提供更强大的环境理解能力。年中，理想就推出了端到端模型+VLM（视觉语言模型）的方案。VLM模型对复杂交通环境具有更强的理解能力，可以给端到端提供相关驾驶建议。

不过理想的端到端模型+VLM模型，是相对独立的两个模型。有行业人士告诉36氪汽车，理想的VLM模型运行需要占用一颗Orin芯片算力，目前主要对限速提醒等场景做出驾驶建议。

而VLA模型，是将端到端、VLM两个模型合二为一。也就是说，多模态大模型不再作为端到端的外挂，而是成为端到端自生的一种能力。

谷歌Waymo近期发表的论文中，端到端自动驾驶多模态模型EMMA，不仅将摄像头的视频和图像作为感知输入，同时还能以谷歌地图“请在前方第二个匝道右转出匝道”这种指令作为输入，以及结合车辆历史状态，输出车辆未来轨迹。

而加入多模态大模型后，EMMA不仅仅是理解图像视觉内容，还能进行运动规划和行为生成，实现从感知到决策再到控制的完整链条。‍‍‍‍‍‍‍

有行业人士向36氪汽车表示，目前对于一些特殊的复杂场景，智驾仍然缺少学习数据样本。如果融入模态大模型，就能将大模型学习到的知识迁移给智驾系统，可以有效应对corner case（长尾场景）。

智驾公司元戎启行CEO周光也认为，VLA模型是端到端的2.0版本。他表示，遇到一些复杂的交通规则、潮汐车道、长时序推理等特殊场景时，智驾会比过往理解、应对得更好。

比如在推理时长上，传统rule-base（基于规则）方案下，智驾只能推理1秒钟路况信息然后做出决策控制；端到端1.0阶段系统能够推理出未来7秒路况，而VLA能对几十秒路况进行推理。

“目前基本上大家沿着这条线已经预研1年多了，不过明年想要量产还是有很大难度。”有行业人士表示。

「端到端变奏，后发者的机会更少了」

在进入规模推广之前，下一代端到端方案还面临很现实的挑战。

一方面，现阶段车端芯片硬件不足以支撑多模态大模型的部署落地。有行业人士向36氪汽车表示，将端到端与VLM模型二合一后，车端模型参数变得更大，既要有高效实时推理能力，同时还要有大模型认识复杂世界并给出建议的能力，对车端芯片硬件有相当高要求。

当下，高阶智驾的算力硬件基本为2颗英伟达OrinX芯片，算力为508Tops。有行业人士表示，现阶段车端的算力很难支撑VLA模型部署。

而英伟达的最新一代车载AI芯片Thor有望改变这种局面，Thor的单片AI算力达1000Tops，并对AI、大模型等有不错支持。

不过跟英伟达接触的人士向36氪汽车表示，明年英伟达Thor芯片大概会延期发布，上半年最先有望先推出的是700Tops算力版本。但一颗700Tops算力的芯片也可能支撑不了VLA模型，两片Thor的成本又高出不少。

英伟达的芯片量产时间与成本挑战，横亘在车企前面。为此，一些自研芯片的新势力也在紧追芯片进度。据36氪汽车了解，一家头部新势力的VLA模型预计2026年正式上车。“届时结合自研的大算力芯片，VLA的效果会更惊艳。”上述行业人士表示。

好在，VLA模型架构下，数据方面的挑战没有剧烈提升。

有行业人士告诉36氪，在端到端基础上，VLA模型融入了视觉语言模型、动作模型。但多模态大模型的数据并不难获得，包括已经开源的大模型、互联网上已有的通用语言，都可能成为智驾多模态大模型的养料。

更具挑战的是，如何将端到端与多模态大模型的数据与信息作深度交融。这考验着头部智驾团队的模型框架定义能力、模型快速迭代能力。

这些都决定了VLA模型不会太快进入智驾的量产环节。

然而，技术路线的骤然升级与竞赛变奏，为还没发力端到端的玩家设置了更高门槛，后发制人的机会更加稀少。

三、高通发布论文：蒸馏多模态大模型框架，实现端到端自动驾驶

（原创秀赫跳动的数据）

自动驾驶要求安全的运动规划，特别是在关键的“长尾”场景中。近期的端到端自动驾驶系统利用大语言模型（LLMs）作为规划器，以提高对稀有事件的泛化能力。然而，在测试阶段使用LLMs会带来较高的计算成本。为了解决这个问题，我们提出了DiMA，这是一种端到端的自动驾驶系统，在保持没有LLM（或基于视觉的）规划器的效率的同时，利用LLM的世界知识。DiMA通过一组专门设计的代理任务，将多模态LLM的信息蒸馏到基于视觉的端到端规划器中。在联合训练策略下，两个网络共享的场景编码器生成结构化的表示，这些表示在语义上是有根基的，并且与最终的规划目标对齐。值得注意的是，LLM在推理阶段是可选的，从而在不妥协效率的情况下实现了强大的规划能力。使用DiMA进行训练可实现基于视觉的规划器的L2轨迹误差降低37%，碰撞率降低80%，并且在长尾场景中轨迹误差减少44%。DiMA还在nuScenes规划基准测试上达到了最先进的性能。

图1：来自nuScenes的长尾场景规划性能比较：在超车和三点掉头等长尾导航场景中，DiMA-VAD相比于VAD 展现了更强的鲁棒性。DiMA-VAD还优于近期的视觉规划器PARA-Drive 和LLM规划器TOKEN 。值得注意的是，三点掉头是一个零样本场景，仅出现在验证集上。

引言

自动驾驶的研究已从传统的整合顺序、独立训练模型的策略转向开发端到端训练的多任务系统。这些方法在提高性能和可解释性的同时，也具备较高的效率。然而，它们在长尾导航和感知场景中面临挑战，主要是因为它们是在任务特定的、有限的数据集上进行训练的。

大语言模型（LLMs）作为解决这一问题的有力工具应运而生。LLMs通过在庞大的互联网级数据集上进行训练，可以利用世界知识来推广到未见过的或稀有的场景。这些模型能够利用链式推理等机制执行高层次的推理任务[48]。超越基于文本的提示，多模态大语言模型（MLLMs）将图像和视频输入集成到LLM中，支持视觉问答、密集标注等任务[23, 26]。近期的端到端自动驾驶系统利用LLMs通过语言引导推理提高可解释性，并在长尾场景中展现出更强的鲁棒性。为了区分这些方法，我们将依赖LLMs进行轨迹预测的端到端规划器称为“基于LLM的”规划器，而不依赖LLMs的则称为“基于视觉的”规划器。尽管“基于LLM的”规划器最近取得了一定的成功，但仍面临着显著的挑战。

首先，基于LLM的规划器在测试时需要大量的计算开销，这限制了它们的实用性。本研究解决了一个核心问题：我们如何在保持基于视觉的规划器效率的同时，利用LLMs的世界知识？其次，将视觉和语言领域桥接起来，在端到端规划任务中比在一般的MLLM任务中更加复杂，且面临有限训练数据的额外障碍。标准的图像标记化策略依赖于冻结的预训练图像编码器[35]，生成稠密的、非结构化的多模态标记嵌入。我们认为，针对端到端自动驾驶的MLLMs从明确建模场景组件的结构化输入中受益。此外，我们还认为，在训练过程中更新这些特征会产生更丰富的表示。

图2： DiMA概述。该框架的输入是多视角图像序列和问题文本提示。基于视觉的端到端规划器由场景编码器和规划变换器组成。场景编码器以鸟瞰图、ego视角、agent视角和地图（B E A M）标记嵌入的形式学习结构化的潜在表示，并作为多模态大语言模型（MLLM）的可训练标记器。规划变换器在标准规划约束下进行训练。MLLM被训练用于规划、视觉问答、蒸馏以及一系列代理任务。

为了解决这些挑战，我们提出了DiMA，一种用于自动驾驶的多模态大语言模型蒸馏的新框架。引入了一个联合训练方案，将基于视觉的规划器和多模态大语言模型（MLLM）结合起来，从而学习鲁棒、接地且解耦的场景表示，这些表示与最终的规划目标对齐。具体来说，我们将基于视觉的规划器作为标记器，并将学习到的场景表示传递给MLLM，提供更结构化的输入。随后，MLLM被训练用于视觉问答、轨迹估计以及一系列代理任务，这些任务旨在将多模态输入与语言对接。基于视觉的规划器同时用于轨迹估计，并从MLLM的规划头部蒸馏特征到规划变换器。至关重要的是，在执行规划推理时，可以丢弃MLLM，从而保持基于视觉的规划器的效率，同时利用语言模型的知识。可选地，MLLM可以通过视觉问答支持语言引导的推理。我们的实验表明，DiMA相比基准和最先进的方法[50, 40]在处理具有挑战性的长尾场景时更具鲁棒性。图1 从定量和定性上都确认了这一点。贡献如下：

DiMA，一种端到端的自动驾驶框架，它将多模态大语言模型（MLLM）的知识蒸馏到基于视觉的规划器中，从而确保在面对长尾事件时的鲁棒性，同时保持效率。DiMA能够进行规划和视觉问答。

蒸馏任务，并结合以下代理任务，以对齐基于视觉的规划器和MLLM的目标：(i) 掩码标记重建 (ii) 未来标记预测 (iii) 场景编辑。

DiMA优于基于视觉和LLM的端到端规划器，在nuScenes规划基准测试中取得了最先进的结果。使用DiMA进行训练使得基于视觉的规划器的L2轨迹误差减少了37%，碰撞率降低了80%，并且在长尾场景中轨迹误差减少了44%。

相关工作

端到端自动驾驶

自动驾驶 (AD) 系统通常是模块化的，由感知、运动预测 [5, 28, 31] 和规划 [10] 等任务组成。经典的 AD 系统为每个任务使用独立的模型，其中每个模块单独优化并顺序组合。或者，一些方法将这些模块化任务合并到多任务学习范式中，其中任务共享一个公共特征提取过程，但具有特定于任务的头。最近，研究转向以端到端方式优化自动驾驶系统，旨在直接预测未来轨迹 [22, 18, 6, 4, 8, 51]。沿着这条工作线，UniAD [20] 引入了一种基于查询的设计，将感知和预测组件集成在一起，实现了端到端的规划方案。VAD [22] 利用矢量化场景表示，取代了 [20] 中密集栅格化表示，降低了计算成本并提高了规划性能。虽然在一般导航场景中有效，但这些方法在困难的长尾事件中存在困难（参见图 1）。在这项工作中，我们提出了一种用于端到端自动驾驶的方法，该方法对这些场景具有鲁棒性。

用于自动驾驶的 LLM

大型语言模型的近期成功证明了它们能够处理具有逻辑推理的复杂上下文信息并以人类可解释的方式进行交流，引起了自动驾驶领域的高度关注。这些工作调查了语言模型泛化到新场景的能力以及它们以文本形式推理场景的能力。

提示LLM。一种方法涉及使用推理框架（例如思维链）提示 LLM。LanguageMPC 利用 LLM 的常识推理能力做出高级驾驶决策，然后将其转换为底层控制信号。GPT-Driver将观察结果和自我状态转换为语言提示，将驾驶规划框架化为 LLM 的文本任务。

使用 MLLM 进行端到端驾驶。另一种方法是将多模态 LLM 集成到自动驾驶车辆的端到端训练框架中。LMDrive将视觉编码器与大型语言模型集成，从而在自动驾驶中实现自然语言指令。DriveLM 引入了多步问答，超越了单轮交互。DriveVLM 利用 MLLM 和思维链过程来增强场景理解和规划。

我们指出了当前用于自动驾驶的 MLLM 策略中的一个挑战。建议，为了推理车辆动力学，语言模型受益于显式建模场景组件的结构化输入，而不是像那样对 MLLM 进行密集、无结构的输入。在 TOKEN 中，来自的场景编码器用作标记器。但是，它在训练期间被冻结。在我们的方法中，MLLM 的输入是一组从预训练的场景编码器中学习到的潜在表示，该场景编码器与 MLLM 联合训练，使其能够学习更接地的特征表示。

DiMA框架

我们提出了DiMA，一个端到端自动驾驶框架。给定一序列多视角图像，整体目标是预测ego车辆的未来轨迹并回答关于场景的问题。DiMA的框架概览见图2。该框架包含两个主要组件：1）基于视觉的规划器；2）一个多模态大语言模型（MLLM），由适配层、LLM和一系列任务特定的解码头组成。

基于视觉的规划器

基于视觉的端到端规划器以多任务方式进行训练，执行感知、地图构建、运动预测和规划等任务。考虑到标准架构设计，我们将规划器分解为场景编码器和规划变换器。场景编码器向规划变换器提供结构化的潜在表示，规划变换器用于执行路径点预测。我们将这些表示称为场景标记嵌入。在我们的框架中，我们以两种方式利用基于视觉的规划器。首先，它作为执行规划的主网络，使得在测试时能够快速预测。其次，场景编码器与MLLM共享，作为标记器为其提供高度结构化的输入。我们框架与先前工作的一个重要区别是，场景编码器与MLLM一起联合训练。

场景编码器

场景编码器将场景建模为高维标记嵌入，明确表示环境地图、ego车辆和周围代理等组件。通过引入任务特定的、可学习的查询特征，并通过一系列规划约束进行监督，实现了这一目标[22]。首先，视觉主干网络对输入的多视角图像序列进行编码。得到的特征图通过一组查询投影到鸟瞰图（BEV）空间，以获得BEV标记嵌入（B）。该网络通过与地图和代理查询的交叉注意机制，学习以地图标记嵌入（M）和代理标记（A）嵌入形式表示的结构化地图和代理特征。一个随机初始化的可学习嵌入被训练以学习ego车辆与代理和地图组件的交互，这就是ego查询（E）。我们将这些潜在场景表示的集合表示为B E A M标记嵌入。这些标记嵌入被传递到规划头中，用于预测ego和代理车辆的未来轨迹。同时，它们也作为多模态输入传递给MLLM，如下所述。

多模态LLM

我们的目标是将MLLM的知识蒸馏到基于视觉的规划器中。为此，我们将基于视觉的规划器与MLLM联合训练。具体来说，场景编码器作为可训练的标记器用于MLLM，以生成B E A M标记嵌入，并作为规划变换器的编码器。该策略的优势有两个方面。首先，MLLM接收高度结构化的输入，捕捉与自动驾驶任务相关的丰富时空信息。其次，场景编码器学习到的特征与语言对接，从而提高了基于视觉的规划的鲁棒性。MLLM的主要组件包括适配层、大语言模型和一系列任务特定的解码头，接下来我们将详细讨论。

场景标记的适配

为了高效地投影B E A M标记嵌入，同时保持其独特性，我们利用查询变换器（Q-former）模块[19]在输入到LLM之前对视觉标记进行压缩。我们实现了组件特定的Q-former层，即地图Q-former、鸟瞰图（BEV）Q-former、ego Q-former和代理Q-former。每个适配器将表示不同模态的标记转换为固定长度的高维标记序列，准备将其输入到MLLM进行处理。

MLLM监督

我们为MLLM设计了任务，目标是：a）丰富中间场景表示；b）将场景标记嵌入与语言对接；c）训练LLM进行规划相关推理。具体而言，MLLM被训练用于视觉问答、轨迹估计、特征蒸馏和一组代理任务[2]。

视觉问答

MLLM被训练用于视觉问答（VQA），其问题-答案对有四种类型：场景感知、代理行为预测、ego车辆行为预测和未来规划步骤[39]。答案是基于多模态提示预测的，提示由问题嵌入和投影的B E A M标记嵌入组成。这被构造为一个标准的下一个标记预测任务，VQA分支使用交叉熵损失进行监督，如[23]所示。我们将来自此任务头的损失记作ℒL L M。

图3：场景编辑中的添加和删除示例在第一行，左侧的ego车辆（绿色框）旁边添加了一辆车（实心红框）。在第二行，右侧的ego车辆旁边删除了一辆车（虚线红框）。为了描述该编辑，创建了相应的问答对。

替代任务

联合训练的主要目标是丰富场景编码器学习到的 B⁢E⁢A⁢M 场景表示。我们设计了与未来轨迹预测目标一致的 MLLM 替代任务。

掩码令牌重建：每种类型的令牌嵌入都对场景的整体表示做出贡献。为了丰富视觉表示，我们要求网络根据其余多模态序列中的上下文重建掩码的 BEV 输入。在场景编码后，我们进行随机掩码，并将令牌嵌入传递给 MLLM。重建头从 LLM 的倒数第二层获取潜在表示，并预测重建的 BEV 令牌嵌入 B^。该解码头通过预测与完整输入之间的 L2 损失进行监督。

其中，({m(B), E, A, M}) 作为输入传递给 MLLM，且与 BEV 令牌嵌入相关的潜在 MLLM 表示被输入到掩码重建解码头。这里，m(.) 表示随机掩码。

未来 BEV 预测：规划的一个重要方面是预测未来事件。我们引入了未来 BEV 预测的替代任务，以鼓励 LLM 学习对规划有用的时空线索。给定潜在的 BEV 令牌嵌入，我们训练一个预测头来预测未来的 BEV 令牌嵌入，并通过预测的未来令牌嵌入与真实标签之间的 L2 损失来监督这个任务：

其中，F^t 和 F~t 分别是时间 t 时刻预测的未来 BEV 令牌嵌入。请注意，我们预测的是多视角图像序列在时间步骤 {t+1, t+2} 的未来 BEV 令牌嵌入 (Bt+1, Bt+2)。

场景编辑：为了预测和推理自车的行为，学习周围代理如何影响自车的未来路径至关重要。我们提出了一种新颖的场景编辑任务，通过移除或添加新代理来增强场景。并且，我们构建了与编辑相关的问题-答案对。图 3 展示了这一过程的示例。对于场景添加，给定地图约束、预测的地图、自车边界框位置和预测代理的轨迹，我们为新的“汽车”或“卡车”类别的代理创建一个航点轨迹。然后，通过一个线性层创建一个新的代理令牌嵌入。这个新的代理令牌嵌入、相应的文本提示以及其余的 B⁢E⁢A⁢M 令牌嵌入将作为输入传递给 LLM。对应于代理令牌嵌入的隐藏潜在 LLM 特征随后会被送入专门的场景编辑解码头，该解码头执行自车的航点预测。语言预测头则对新的 QA 对进行问答。这一任务因此贡献于现有的规划约束损失和 MLLM 的 VQA 损失。

蒸馏：为了进一步对齐视觉规划器和 MLLM 学习到的表示，我们在语言模型的倒数第二层和规划转换器之间执行知识迁移。具体来说，我们最小化规划转换器的隐藏特征分布与自车令牌嵌入的 LLM 隐藏特征之间的 KL 散度。

其中 Pv⁢i⁢s 是视觉规划 Transformer 倒数第二层的特征，而 Pl⁢l⁢m 是对应于 MLLM 模型倒数第二层的自车令牌嵌入的隐藏 LLM 嵌入特征。

损失函数。我们通过规划、视觉问答、蒸馏以及每个替代任务对应的损失的加权和来监督网络。

其中 ℒp⁢l⁢a⁢n⁢n⁢i⁢n⁢g 来自于用于训练的规划目标。这里，损失权重被选择为将每个值带到相同的尺度。

表 1：使用标准化评估对 nuScenes 上的 L2 轨迹误差和碰撞率的比较。对来自的具有挑战性的样本的“目标”分割以及常规验证分割对模型进行评估。DiMA 模型变体的性能以紫色阴影表示。我们通过对 t={1,2,3}⁢s 以及所有时间步的平均值来总结结果。每个设置中的最佳平均性能以粗体显示。“+”表示使用自我状态信息。

实验设置

架构设计

基于视觉的规划器：我们使用两个基于视觉的端到端规划器进行实验，分别是 VAD 和 UniAD，它们因其性能、效率以及建模场景组件之间交互的能力而被选中。我们使用了 VAD 的两种模型大小变体。两个规划器都经过了感知、运动预测和规划的训练，而 UniAD 还执行占用预测。

MLLM 设计：MLLM 由适配器层、语言模型和一组任务特定的解码器层组成。我们按照的方法，通过专门的 Q-former 适配器层对每个 BEAM token 嵌入进行投影。投影后，BEAM token 嵌入和语言 token 嵌入位于相同的嵌入空间。为了减少内存消耗，我们将代理 token 的序列长度限制为总代理数的一部分，并在输入到语言模型后进行序列级的上采样。适配器层是随机初始化的。我们使用 LLaVA-v1.5-7B [26] 作为语言模型基础。自我预测和代理运动预测任务头是基于多层感知器网络，遵循 [22]。对于替代任务解码器头，我们使用带有 ReLU 激活层的 3 个线性层。

训练

DiMA 的训练采用两阶段方法。首先，视觉规划器进行 60 轮预训练，进行感知、预测和规划，以学习有用的潜在场景表示。其次，我们对视觉规划器和 MLLM 进行联合训练，增加 30 轮，结合了第 3 节中详细描述的所有任务和损失。在第二阶段，MLLM 的语言模型使用 LoRA [17] 进行微调。

数据集

我们使用 nuScenes 数据集进行开环规划任务。该数据集包含 28k 个样本，训练/验证集的比例为 22k/6k。每个场景中的物体都进行了 3D 边界框、方向和车辆速度信息的注释。此外，我们还利用了 CAN 总线信息，作为自车轨迹的真实标注。为了监督视觉问答，我们使用 DriveLM 数据集进行训练。该数据集包含 nuScenes 数据集的 4k 子集，标注了 30 万个与感知、预测、规划和自车行为相关的 QA 对。对于 nuScenes 中没有文本标注的样本，我们根据数值标注创建了感知、规划和预测的 QA 对。

我们使用这些信息，通过上下文示例提示 Llama3-70B 模型生成类似 DriveLM 的 QA 对。对于行为 QA 对，我们创建了一种基于自车轨迹值和车辆速度的规则算法，来分类自车的未来运动。

评估细节

我们基于自车未来 3 秒的预测轨迹来评估规划性能，其中每秒预测 2 个航点。我们使用两个指标，L2 错误（单位：米），即预测航点与真实航点之间的误差，以及碰撞率（单位：%），即自车与周围车辆之间的碰撞率。

标准化 vs VAD 评估：Weng 等人指出 VAD 、UniAD 和 AD-MLP 在规划评估中的不一致性，特别是在 L2 错误的时间平均方式和如何处理噪声和无效帧方面。作者还指出，使用更精细离散化的 BEV 地图能显著提高碰撞性能。针对这些不一致性，他们提出了一种“标准化”评估指标，以保证方法之间的公平比较。为了准确报告并与进行公平比较，我们使用这一标准化指标来评估我们的模型。某些现有工作使用所采用的评估方案（我们称之为 VAD 评估），并且没有提供代码或模型。在这里，我们将 DiMA 的评估结果与采用 VAD 评估的现有工作结果进行对比。

表 2：使用 VAD 评估在 nuScenes 数据集上的 L2 轨迹误差和碰撞率比较。模型在通用验证集上进行评估。DiMA 模型变体的表现以紫色阴影表示，MLLM 分支的 DiMA 模型变体的表现以蓝色表示。我们通过对所有时间步长的平均值进行总结，来展示结果。在每个设置中，最佳的平均性能以粗体显示。“+” 表示使用了自车状态信息。

表 3：使用标准化评估对 nuScenes验证集上的 L2 轨迹误差和碰撞率进行的长尾性能比较。视觉规划器 DiMA 模型变体的表现以紫色阴影表示，MLLM 分支的 DiMA 模型变体的表现以蓝色阴影表示。我们通过在 t = {1, 2, 3} 秒和所有时间步长上的平均值来总结结果。在每个设置中，最佳的平均性能以粗体显示。

四、Senna：连接大型视觉-语言模型和端到端自动驾驶

（黄浴大语言模型和具身智体及自动驾驶）

24年10月来自华中理工和地平线的论文“Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving”。

端到端自动驾驶凭借大规模数据展示强大的规划能力，但由于常识有限，在复杂、罕见场景中仍举步维艰。相比之下，大型视觉-语言模型 (LVLM) 在场景理解和推理方面表现出色。前进的道路在于融合两种方法的优势。以前使用 LVLM 预测轨迹或控制信号的方法会产生次优结果，因为 LVLM 不适合精确的数值预测。 Senna，是一种结合 LVLM（Senna-VLM）和端到端模型（Senna-E2E）的自动驾驶系统。Senna 将高级规划与低级轨迹预测分离。Senna-VLM 以自然语言生成规划决策，而 Senna-E2E 则预测精确的轨迹。Senna-VLM 采用多图像编码方法和多视图提示来高效理解场景。此外，引入面向规划的问答和三步训练策略，在保留常识的同时，提高 Senna-VLM 的规划性能。在两个数据集上进行的大量实验表明，Senna 实现最先进的规划性能。值得注意的是，通过在大型数据集 DriveX 上进行预训练并在 nuScenes 上进行微调，与未进行预训练的模型相比，Senna 显著降低 27.12% 的平均规划误差和 33.33% 的碰撞率。 Senna 跨场景泛化和可迁移性，对于实现全自动驾驶至关重要。

如图所示：Senna 是一个结构化的自动驾驶系统，由大型视觉-语言模型 (Senna-VLM) 和端到端驾驶模型 (Senna-E2E) 组成。Senna-VLM 以自然语言生成高级规划元动作，而 Senna-E2E 则预测低级规划轨迹。设计一系列面向规划的 QA，这些 QA 可以大规模自动标记，并采用三步训练策略，实现对驾驶场景的深刻理解和准确规划。

近年来，自动驾驶发展迅速[1]–[3]。在驾驶感知[4]–[6]、运动预测[7]–[9]和规划[10]–[12]等领域取得了重大进展。这些发展为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中，端到端自动驾驶是一个重大突破。在大规模数据的推动下，端到端方法已经展现出卓越的规划能力。此外，大型视觉-语言模型（LVLM）[13]–[17]已经展现出越来越强大的图像理解和推理能力。通过利用常识和逻辑，LVLM 可以分析驾驶环境并在复杂场景中做出安全决策。利用大量驾驶数据来提高 LVLM 在自动驾驶中的性能，并将 LVLM 与端到端模型连接起来，对于实现安全、稳健和可推广的自动驾驶至关重要。

端到端自动驾驶的常见做法是直接预测未来轨迹或控制信号，而无需决策步骤。然而，这种方法可能会使模型学习更加困难，同时缺乏可解释性。相比之下，当人脑做出详细决策时，由分层高级决策和低级执行组成的系统起着至关重要的作用 [18]–[20]。此外，端到端模型通常缺乏常识，在简单场景中可能会出错。例如，它们可能会将载有交通锥的卡车误认为是路障，从而触发不必要的刹车。这些限制阻碍了端到端模型的规划性能。

端到端自动驾驶。传统的自动驾驶系统通常采用分阶段的模块化设计，并采用基于规则的规划器 [35]–[37]，这面临着模型泛化能力有限和规划性能上限等挑战。相比之下，端到端自动驾驶利用神经网络将感知输入直接映射到规划输出。早期的研究 [11]、[38]、[39] 将此视为黑盒子方法，尽管缺乏可解释性，但它们展示了神经网络在端到端学习中的潜力。近年来，随着自动驾驶的快速发展，可用驾驶数据的爆炸式增长为端到端方法提供了大量支持 [2]、[3]、[40]–[43]。UniAD [2] 引入一个多任务框架，使用 Transformers [44] 来执行目标跟踪、轨迹预测、地图预测、占用预测和规划。这些辅助任务的额外监督显著提高模型的规划性能。 VAD [3] 引入矢量化场景表示，在准确率和速度之间取得了更好的平衡。VADv2 [43] 进一步提出概率规划，用多模态轨迹评分取代确定性规划，以更好地捕捉规划的不确定性。

大型视觉语言模型。随着表现出强大理解和对话能力的大型语言模型 (LLM) 的出现 [45]–[48]，将这种能力从单一文本模态扩展到多模态系统是很自然的，其中视觉模态是最关键的模态之一 [13]–[16]、[28]、[49]、[50]。CLIP [51]、[52] 率先使用图像-文本对进行对比学习，使模型能够以自监督的方式实现大规模预训练。 BLIP [53]，[54] 通过跨模态对比学习和生成任务在视觉和语言模型之间架起了桥梁。基于这些跨模态训练策略 [51]，[55]-[57]，LVLM 取得了一系列进步。GPT-4V [17] 在理解复杂场景和多任务推理方面表现出色。LLaVA [13]，[30] 引入了视觉指令调整，利用 GPT-4 生成的语言图像指令跟踪数据进行跨模态学习。QwenVL [14] 在视觉连接器、训练策略和数据方面进行了改进，在多语言理解和 3D 感知方面表现出色。VILA [28] 通过优化跨模态预训练和监督微调策略来提高多模态性能。 Qwen2-VL [58] 采用更先进的 Qwen2 [48] 作为语言模型，并引入了多模态旋转位置嵌入和动态数量的视觉tokens，以支持任意分辨率的图像和视频输入。

大视觉语言模型与自动驾驶。LVLM 的常识性知识、推理能力和可解释性可以有效弥补端到端模型的不足。Drive-with-LLMs [22] 使用真值驾驶感知数据和 Transformer 网络将感知信息编码到潜空间中，然后将其输入到 LLM 中以预测未来的规划轨迹。DriveGPT4 [21] 接受前置摄像头视频输入，并使用 LVLM 预测规划控制信号并提供决策解释。LanguageMPC [59] 将历史真值感知信息和高清地图转换为自然语言格式，并使用思维链推理来分析驾驶场景并生成规划动作。 DriveMLM [23] 在闭环仿真环境中验证基于 LVLM 规划模型的有效性 [60]。ELM [29] 使用互联网规模的跨域视频数据对 LVLM 进行大规模预训练，表明结合多种来源和特定于任务的训练数据可显著提高 LVLM 在驾驶任务中的表现。其他几项研究提出针对驾驶任务量身定制的数据收集策略和数据集，进一步推动自动驾驶领域 LVLM 的发展 [31]–[33]、[61]–[63]。DriveVLM [27] 首次将 LVLM 与端到端模型相结合，其中 LVLM 预测低频轨迹，端到端模型对其进行细化以生成最终的规划轨迹。DriveVLM 在 nuScenes 数据集和他们提出的数据集上都展示强大的规划性能。然而，由于 LVLM 不太适合精确的数学计算，使用 LVLM 预测轨迹点可能会导致性能不佳。

如图所示：（a）以前的方法在没有决策步骤的情况下规划轨迹，这使得模型学习变得困难；LVLM 也难以进行精确的轨迹预测。（b）Senna 采用结构化规划方法：Senna-VLM 利用预训练的常识和驾驶知识以自然语言进行高级决策，然后 Senna-E2E 使用这些决策来生成最终轨迹。

如图展示 Senna 的整体架构。输入的场景信息包括多视角图像序列、用户指令和导航命令。用户指令作为提示输入到 Senna-VLM，其他指令则同时发送给 Senna-VLM 和 Senna-E2E。Senna-VLM 将图像和文本信息分别编码为图像和文本tokens，然后由 LLM 进行处理。LLM 生成高级决策，这些决策通过Meta- action编码器编码为高维特征。Senna-E2E 根据场景信息和 Senna-VLM 生成的 meta- action 特征预测最终的规划轨迹。设计一系列面向规划的 QA 来训练 Senna-VLM，这些 QA 不需要人工注释，并且可以完全通过自动标记流程大规模生成。

驾驶场景理解

了解驾驶场景中的关键因素对于安全准确的规划至关重要。设计一系列面向规划的 QA，增强 Senna-VLM 对驾驶场景的理解。每种类型的 QA 的细节如图所示。用于生成这些 QA 的原始数据（例如 3D 目标检测框和跟踪轨迹）可以通过自动注释系统获得。此外，描述 QA 可以由 GPT-4o [17] 等 LVLM 生成。

场景描述。利用预训练的 LVLM 根据环视图像生成驾驶场景的描述。为了避免生成与规划无关的冗余信息，在提示中指定所需的信息，包括：交通状况、环境（例如，城市、乡村等）、道路类型（例如，铺装道路、高速公路）、天气状况、一天中的时间以及道路状况（例如，道路是否平坦或是否有任何障碍物）。通过以这种方式构造提示，可以获得简洁且信息丰富的场景描述。

交通信号检测。交通信号有多种类型，但这里主要关注最关键的一种：交通信号灯。交通信号灯的状态可分为四种：红色、绿色、黄色和无，其中无表示在自车前方未检测到交通信号灯。

弱势道路使用者识别。通过识别环境中的弱势道路使用者 (VRU)，增强 Senna 对这些关键目标的感知并提高了规划的安全性。具体而言，用真值 3D 检测结果来获取 VRU 的类别和位置，然后以文本形式描述此信息。位置信息以自车为中心，包括每个 VRU 相对于自车的横向和纵向距离。仅使用 Senna-VLM 来预测距离的整数部分，以在构建距离感知的同时降低学习复杂性。

运动意图预测。准确预测其他车辆的未来运动意图是安全规划的先决条件。还采用了meta-action方法，使 Senna 能够预测周围车辆的未来行为。这增强 Senna 对场景动态特征的理解，并使其能够做出更明智的决策。

meta-action规划。为了避免使用 LVLM 进行精确的轨迹预测，将自车的未来轨迹转换为meta-action以进行高级规划。具体而言，meta-action包括横向和纵向决策。横向meta-action包括左转、直行和右转，而纵向meta-action包括加速、保持、减速和停止。横向meta-action是根据预测的未来时间步长 T 内的横向位移确定的，纵向meta-action是根据预测期间的速度变化确定的。最终的meta-action包括横向和纵向元动作。

规划解释。还根据车辆的真实未来运动使用 LVLM 生成规划解释。换句话说，告知 LVLM 车辆的实际未来运动（例如加速和左转），并要求它们分析此类决策背后的原因。在提示中，引导模型通过考虑以下影响规划的因素来分析决策：其他交通参与者的行为、导航信息、道路状况和交通信号灯状态。

Senna-VLM 由四个组件组成。视觉编码器以多视角图像序列 I 作为输入并提取图像特征，然后由驾驶视觉适配器进一步编码和压缩，得到图像tokens Eimg。文本编码器将用户说明和导航命令编码为文本tokens Etxt。图像和文本tokens都被输入到 LLM 中，LLM 用来预测高级决策。在实践中，用 Vicuna-v1.5-7b [64] 作为 LLM。最后，meta-action编码器对决策进行编码并输出meta-action特征e/act。

用CLIP [51]中的ViT-L / 14作为视觉编码器，其中每幅图像的大小调整为 H = W = 224，从而产生576个图像tokens。对于多图像输入，这会导致图像tokens数量过多，这不仅会减慢VLM训练和推理的速度，还会导致模型崩溃和解码失败。因此，引入驾驶视觉适配器模块。该模块不仅功能类似于以前的研究[13]，[54]，将图像特征映射到LLM特征空间，而且还对图像特征执行额外的编码和压缩以减少图像tokens的数量。

实验表明，进一步编码和压缩图像特征不会降低模型性能。但是，过多的图像tokens会导致模型崩溃和解码失败。

为了使Senna-VLM能够区分不同视图的图像特征并建立空间理解，为驾驶场景设计一个简单而有效的环视提示。以正面视图为例，相应的提示为：<FRONT VIEW>:\n<image>\n，其中<image>是LLM的特殊token，在生成过程中将被图像token替换。如图说明提出的多视图提示和图像编码方法的设计。

最后，提出meta-action编码器φ，它将LLM输出的高级决策转换为meta-action特征e/act。由于使用一组格式化的meta-action，因此meta-action编码器φ使用一组可学习的嵌入E/act实现了从meta-action到meta-action特征的一对一映射。 LLM是Senna的大语言模型。随后，met-action特征将被输入到Senna-E2E中以预测规划轨迹。

Senna-E2E 扩展 VADv2 [43]。具体来说，Senna-E2E 的输入包括多视图图像序列、导航命令和meta-action特征。它由三个模块组成：感知模块，用于检测动态目标并生成局部地图；运动预测模块，用于预测动态目标的未来轨迹；规划模块，使用一组通过注意机制 [44] 与场景特征交互的规划tokens来预测规划轨迹 V。将meta-action特征集成为一个 Senna-E2E 的附加交互tokens。由于meta-action特征采用嵌入向量的形式，因此 Senna-VLM 可以轻松地与其他端到端模型相结合。

为 Senna-VLM 提出了一种三步训练策略。第一步是混合预训练，用单图像数据训练驾驶视觉适配器，同时保持 Senna-VLM 中其他模块的参数不变。这样可以将图像特征映射到 LLM 特征空间。混合是指使用来自多个来源的数据，包括 LLaVA [13] 中使用的指令跟踪数据和提出的驾驶场景描述数据。第二步是驾驶微调，根据提出的面向规划 QA 对 Senna-VLM 进行微调，但不包括meta-action规划 QA。在此步，使用环视多图像输入代替单图像输入。第三步是规划微调，仅使用meta-action规划 QA 进一步微调 Senna-VLM。在第二步和第三步，都微调 Senna-VLM 的所有参数，但视觉编码器除外，它保持冻结状态。

对于 Senna-E2E，在训练阶段使用真值meta-action作为输入，而在推理阶段，它依赖于 Senna-VLM 预测的met-action。

END

本公众号声明：

1、如您转载本公众号原创内容必须注明出处。

2、本公众号转载的内容是出于传递更多信息之目的，若有来源标注错误或侵犯了您的合法权益，请作者或发布单位与我们联系，我们将及时进行修改或删除处理。

3、本公众号文中部分图片来源于网络，版权归原作者所有，如果侵犯到您的权益，请联系我们删除。

4、本公众号发布的所有内容，并不意味着本公众号赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本公众号证实，对本文全部或者部分内容的真实性、完整性、及时性我们不作任何保证或承诺，请浏览者仅作参考，并请自行核实。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

聊聊自动驾驶端到端大模型的那些事︱大模型自动驾驶

VLA模型：让AI“看、听、行”

从理解到行动

编程实现：从理论到实践

VLA模型的简化实现

代码详解：一步步走进VLA模型

通用性与可扩展性

性能优化与资源节约

技术挑战与未来发展

模型规模与计算需求

数据集与标注挑战

车企的布局与应用前景

谷歌DeepMind的RT-2模型

OpenVLA模型

国内车企的积极布局

边缘计算与实时响应的结合

实时决策的重要性

计算优化的策略

VLA模型的广泛应用与未来展望

智能家居与机器人

无人机与物流

智慧城市与公共安全

反思与未来挑战

技术与伦理的平衡

总结：从科幻到现实的跨越

驾驶场景理解

最新文章

热门文章

随机文章

聊聊自动驾驶端到端大模型的那些事︱大模型自动驾驶

VLA模型：让AI“看、听、行”

从理解到行动

编程实现：从理论到实践

VLA模型的简化实现

代码详解：一步步走进VLA模型

通用性与可扩展性

性能优化与资源节约

技术挑战与未来发展

模型规模与计算需求

数据集与标注挑战

车企的布局与应用前景

谷歌DeepMind的RT-2模型

OpenVLA模型

国内车企的积极布局

边缘计算与实时响应的结合

实时决策的重要性

计算优化的策略

VLA模型的广泛应用与未来展望

智能家居与机器人

无人机与物流

智慧城市与公共安全

反思与未来挑战

技术与伦理的平衡

总结：从科幻到现实的跨越

驾驶场景理解

激光雷达清洗系统主要应用于自动驾驶车辆中 高端产品市场占比有望提升

奇瑞星途ES8概念车发布,中大型猎跑轿车,列装犀牛S全固态电池,目标续航1000km,对标享界S9T!

最新文章

热门文章

随机文章

激光雷达清洗系统主要应用于自动驾驶车辆中高端产品市场占比有望提升