点击下方卡片,关注“人工智能AI与算法”公众号
最近半年,自动驾驶圈最热的话题莫过于VLA(Vision-Language-Action,视觉-语言-动作)大模型。小鹏、理想等车企扎堆布局,英伟达更是直接甩出了320亿参数的开源VLA模型Alpamayo 2 Super,号称打开了自动驾驶的“黑箱”,实现了安全推理的转折点。但是,我在跟不少工程师交流后发现,大家对VLA的认知多半还停留在“它能看懂也会开”这个层面。VLA要想真正从“会看会开”进化到“会记忆会预判”,中间最关键的那个零件——记忆模块——却很少有人讲清楚。
今天专门来扒一扒自动驾驶VLA的记忆系统,看看它到底是怎么让一辆车像老司机一样记住路况、明白自己该干什么的。
一个问题:现在主流的自动驾驶AI是怎么决策的?
简单来说,它每一帧都在做一个独立的“推断”。把当前的摄像头图像丢进模型,它输出一个方向盘角度、一个油门踏板开度。这种模式在自动驾驶领域被称为马尔可夫假设(Markov assumption) ——意思是当前的观察结果足以决定下一步怎么做。
但是,一个只看当下图像就做决策的“赛博驾驶员”,应付一般的直行跟车还能凑合,一旦遇到真正复杂的场景,立马原形毕露。
举个简单的例子:你让一辆车去交换两个桌面上物体的位置。这时候,车子需要记住物体原来放在哪、已经搬动了哪一个、接下来该搬哪一个。看起来很简单对不对?但现有的大多数VLA模型会在第一步就卡住——因为它们根本没有记忆能力,分不清现在这一步和上一步的关系。
放在自动驾驶场景里,这种“失忆”造成的问题更加致命:
车辆经过一个狭窄路口,需要短暂停车等待对向车辆先通过。但在车流中过了十几秒之后,AI还能记住它是“在等待一辆大卡车通过”吗?如果记不住等待的缘由,它可能会误以为自己只是“随机停下”,然后贸然起步引发碰撞。
一次变道被后车强行挤回原车道后,AI能记住“后方那辆SUV驾驶风格比较激进”,并在接下来的几公里路程中有意识地给这辆车多留出安全距离吗?如果没有情景记忆,它只会在下一个路口再次被同一辆车“别”回来。
在高架出口前2公里,AI被要求“下一出口下高速”。它能记住这个指令并一直为变道做准备吗?如果记不住任务目标,可能开出1.5公里后视野里已经看不到出口提示牌,就直接顺走了主路错过出口。
正是这些看似简单、实则极度依赖历史信息的场景,暴露了VLA最核心的短板。也正是在这个问题上,研究者们开始认真思考:如何给AI驾驶员装上一个真正的记忆系统。
既然搞清楚了“必须有记忆”,下一步就是“怎么搞记忆”。目前学界和工业界主要走出了五条路子,我们一个一个来看。
1. 语言草稿本(Language Scratchpad)
高通AI研究院提出了一种非常聪明的办法——给VLA配上一个大白话版的“草稿本”。
具体怎么玩的?这个“草稿本”本质上是一些记录语言描述的文本,模型在处理任务的同时,会实时往里面写东西,比如“蓝色的杯子放在了左边”或者“我已经完成了第一步”。当遇到需要记忆的任务时,模型不是回去翻看几秒钟前的实时画面,而是翻开这本“草稿本”,看一下上面写了什么,就能知道目前做到了哪一步。
这个思路最诱人的地方是什么?简单直白。
没有复杂的结构设计,没有额外的训练模块,就是在原来VLA框架上加一层语言文本记录。但是它的缺点也很明显——语言不如视觉直观。如果只是记录“物体A在坐标(3,2)位置”,模型还能理解并据此决策;但如果把这种记录模式类比为“用微信打字给盲人指路”,信息损失和模糊程度是不可避免的。
2. 双层级循环查询(Dual-Level Recurrent Queries)
这是清华、华为等团队在ReMem-VLA中提出的方案,也是目前最被业界看好的路线之一。
它的核心思想是:给模型装上两套记忆系统。
短时记忆模块负责在相邻的几帧画面之间传递关键信息。举个例子,当一个行人从车辆B柱盲区走出来时,系统必须在连续的10秒内持续跟踪这个人的位置——哪怕中间有几帧因为遮挡没能完整看到这个行人,也要通过记忆“拼出”他的移动轨迹。这就是帧级记忆(frame-level memory) 干的事。
长时记忆模块则负责跨更大的时间尺度传递上下文。比如一辆车在长长的隧道里行驶了30秒,期间GPS信号全部丢失,但系统必须通过长时记忆不断累加车辆的速度传感器读数,推算出隧道里的准确位置。这就是块级记忆(chunk-level memory) 干的事。
这套方案非常像人脑的工作方式——我们既有感知当下的“瞬时记忆”(比如刚刚听到的声音),也有记住整个故事情节的“长期记忆”(比如还记得几周前的某个重要对话)。实验结果显示,ReMem-VLA在空间记忆、时序记忆、情景记忆等多项指标上,都大幅超越了传统的无记忆VLA模型。
3. 检索增强生成(RAG)
RAG(Retrieval-Augmented Generation)是最近两年在通用大模型领域非常火爆的技术,它的思路是:不要试图把所有知识都塞进模型参数里,而是让模型学会“查资料”——当遇到难题时,自动从外部数据库中检索相似场景的解决方案。
将这一思路迁移到自动驾驶场景中,VLADriver-RAG做了这样一件事:车辆行驶时,系统会把当前传感器感知到的信息(周边车辆位置、车道线、交通标识等)转化成一种叫“时空语义图”的结构化表示。以此作为检索索引,系统从历史数据库里找到结构最相似的过往场景,把当时成功的驾驶策略当作“参考答案”拿过来参考。
这个思路最大的优势在于处理长尾场景。
什么是长尾场景?就是那些很少出现、但遇到一次就可能出事故的极端情况——比如高速公路上突然出现一只遗落的轮胎,或者城市街道里跑来一群横穿马路的小孩。这类场景在训练数据里几乎不存在,传统的模型根本没见过,不可能“凭空”正确应对。但通过RAG,系统可以检索到其他车辆在不同道路条件下遇到类似情况时做出的正确决策(比如“靠左低速绕行”还是“紧急制动”)。
不过RAG方案也有一个致命缺陷:速度瓶颈。检索外部数据库需要额外的响应时间,而自动驾驶对延迟的要求是毫秒级的。如何在速度和准确性之间找到平衡,是RAG路线目前最大的挑战。
4. 在线成功记忆(Online Success Memory)
这是今年5月刚在arXiv上发表的方案,把记忆模块的应用场景延伸到了测试部署环节。
它的核心逻辑非常巧妙:部署在真实环境里的自动驾驶车辆,每时每刻都会记录下哪些操作成功了,哪些操作搞砸了。当一个场景出现时,模型不仅依赖训练时学到的通用知识,还会检索之前在这个具体环境下成功过的操作方式,把它当作额外的“先验提示”。
这一方案在真实世界的机器人操作中取得了非常好的效果,尤其是在需要长时间连续执行的任务上——成功率大幅提升。可以想象,一辆长期固定线路行驶的自动驾驶出租车,通过这种机制可以在两周的运营时间里迅速“学习”特定交通标牌的含义、特定转弯路口的难点,真正成为那个最熟悉路况的“本地老司机”。
5. 记忆与世界模型的融合
除了以上四种方案,还有一个更宏大的趋势值得关注——记忆与预测的深度绑定。
单纯的记忆只能告诉你“过去发生了什么”。但人类司机之所以比AI强,是因为我们不仅有记忆,还有预测能力。当你看到前车刹车灯亮起的同时,就已经在脑海里预演了未来1-2秒的画面——前车会减速、自己需要提前松油门、左侧车道是否有空间可以变道避让。
这正是VLA-World和DriveWorld-VLA等模型正在做的事情。它们不仅在记忆历史信息,还在“想象未来”——通过记忆引擎里的历史数据,预演下一秒的世界会变成什么样,再根据这个预演来微调驾驶轨迹。北京交通大学与小米联合提出的DriveWorld-VLA直接把这一逻辑推向了极致,将LLM的隐藏状态作为统一潜在空间,同时承载未来场景想象与动作预测两大核心任务。
当一辆车能够在记忆中积累经验,同时能够在想象中推演未来的时候,它才真正开始接近人类司机的认知水平。
一个已经实际落地的案例:理想汽车的VLA司机大模型。2025年年底,理想率先在i8车型上推送了这一系统,截至年底,月使用率已达80%,VLA指令累计使用超过1200万次。
理想VLA采用了MoE(混合专家)架构,参数规模压缩到3.2B成功部署在车端Thor芯片上。在记忆能力方面,理想的VLA大模型可以做到:
连续多步推理:能理解“先去加油站,再接孩子,最后回家”这种多步任务,并且自动规划最优路径。
场景化行为调整:在丁字路口提前判断盲区风险减速避让,在高速匝道上根据导航信息自动调整变道策略。
语音交互记忆:在一次旅程中能记住用户的语音指令和偏好。比如你说“下次到这块记得提醒我前方有测速”,它会把这个“待办事项”记在任务记忆里,下次路过时主动提醒你。
理想的工程化方案给我们提供了两个重要启示:第一,记忆不是大模型越大越强,关键在于如何让不同时间尺度的信息在有限的算力下高效流动。通过MoE架构的精妙设计和稀疏激活机制,3.2B参数的小模型也能跑出令人惊艳的记忆效果。第二,记忆的真正价值是从“听懂”到“记住”,再到“主动行动” ——知道主人说了什么是一回事,能在几分钟甚至几小时后的恰当节点上调用那个信息是另一回事。
尽管记忆模块让VLA变得前所未有的强大,但坦白说,离真正的“老司机”还有很长的路要走。
1. 计算开销问题。 记忆模块不管怎么设计,都会占用额外的计算资源。尤其是在车端芯片算力被严格限制的现实下,如何在10毫秒的推理周期内完成“当前帧感知+历史记忆检索+未来推演预判”这一整套动作,是工程层面最头疼的难题。英伟达的320亿参数Alpamayo 2 Super虽然性能强悍,但最终部署时也必须通过知识蒸馏压缩到轻量级模型才能在车端跑起来。
2. 记忆污染与遗忘机制。 模型记的东西多了,难免会混入噪声,甚至“记歪了”。VLA-Forget的研究证明,在一个拥有约10亿参数的大模型中,直接把整段记忆抹去是不现实的——信息会分布在不同的参数里,不分青红皂白删除可能导致模型的整体智能大幅下降。真正需要的是精细化的“选择性遗忘”,这有点像你在打车时碰到的那个司机:他可能对全城的路况都了如指掌,但在送你的时候,不需要同时去回忆昨天送过的那位乘客去了哪里。
3. 幻觉问题。 当大语言模型被迫进行记忆检索时,可能会出现“幻觉”——在事实记忆不够清晰的地方凭空捏造了一个答案。在自动驾驶场景下,记忆幻觉造成的后果是灾难性的。模型可能因为记错了“那里有一个停车标志”而突然刹车,或者因为忘记“后视镜里有一辆大货车”而贸然变道。