传统自动驾驶系统在常规路况下表现日益成熟,但在施工路障、交警手势指挥等边缘场景中仍显局促,常需人类接管。根本原因在于传统架构采用感知、决策、执行三个独立模块的流水线设计,感知模块将图像抽象为边界框时丢失大量语境细节,错误逐级放大。视觉语言动作模型(Vision-Language-Action,VLA)通过统一的神经网络将视觉输入与知识库直接连接,根据环境整体理解输出驾驶动作,使自动驾驶从机械式避障转向理解环境后的行动。
传统自动驾驶将任务拆解为感知、决策、执行三个独立模块。感知模块将图像转换为数学坐标,决策模块根据坐标计算路径,执行模块控制油门与方向盘。这种流水线虽结构清晰,但模块间存在信息流失。感知层在将复杂画面抽象为坐标时丢弃大量语境细节,一旦某环节出错,错误沿链路逐级放大。VLA模型通过端到端统一网络解决此问题,将视觉信息直接与动作输出相连,无需中间接口转换。
道路场景中存在概率极低但种类繁多的突发情况,传统规则驱动系统难以穷举所有可能。VLA模型引入大语言模型,接入互联网规模的知识库,对物理世界运行规律具有先验认知。例如系统看到路边滚动的皮球时,不仅能识别圆形物体,还知道皮球后可能有追逐的孩子,从而提前预判减速。
在事故导致的临时交通指挥场景中,VLA模型将视觉信号转化为语义表征,识别交警手势含义并与交通规则权衡。英伟达Alpamayo模型具备思维链推理能力,在复杂路口内部生成类似人类的思考过程:识别路权归属、观察其他行人意图、决定最优轨迹。推理过程使自动驾驶基于对人类社会行为准则的理解执行动作,而非无脑执行预设逻辑。
在越野、工地或无车道线的乡村小路等场景中,高精地图常无法覆盖,传感器也难以找到参照物。VLA模型可接收自然语言指令导航,例如“沿着那排树林左侧的泥路走,停在阴凉的地方”,模型将“树林”“泥路”“阴凉”等视觉概念与驾驶动作精准对齐。这种能力使自动驾驶汽车从在固定轨道运行的遥控车转变为能够理解复杂意图、适应多种环境的智能助手。
神经网络的黑盒特性是公众对自动驾驶信任不足的原因之一。VLA模型通过语言媒介为决策过程提供透明化路径。Wayve的LINGO系列模型能够一边驾驶一边输出自然语言解说,例如在狭窄路段靠边停车时输出“因为前方有停放的车辆且对向有来车,我选择减速避让”。实时的语言反馈缓解乘客焦虑,使车辆行为可预测、可解释,同时提升开发者调试效率。
基于对话的交互模式改变了人车协作关系。乘客可用自然语言介入驾驶决策,例如“这段路太颠了,尽量绕开坑洼”或“这里的风景不错,开慢一点”。模型将这些指令作为决策约束条件实时优化轨迹,将人类驾驶偏好嵌入AI行动逻辑中。
VLA模型包含数十亿至数千亿参数,推理速度较慢,而驾驶任务需在数十毫秒内响应。行业采用双系统模式:一个系统负责高频避障与基础控制确保安全底线,VLA模型以较低频率提供宏观规划与逻辑指导。在动作输出方面,将驾驶动作词元化——把方向盘转角、油门深浅等连续物理量转化为类似单词的数字编号,模型通过预测下一个动作词汇生成完整轨迹。特斯拉FSD通过增加神经网络参数规模处理罕见工况。理想、小鹏等国内厂商研发专用计算平台与编译器,通过知识蒸馏将云端模型压缩至可运行于车载芯片的版本,在有限硬件资源下实现毫秒级响应。
VLA模型的研究意义超越汽车行业。视觉、语言与物理动作的深度融合是通往具身智能的必经路径。该架构若在自动驾驶领域跑通,可迁移至工厂机械臂、医院护理机器人、家庭服务终端等场景。一旦机器掌握通过观察环境、理解指令并做出符合物理常识的行为,人工智能将从屏幕内的文字与图像交互走向物理世界,成为各行业的执行工具。
