在高阶自动驾驶技术演进中,视觉语言模型(VLM)与视觉 - 语言 - 动作模型(VLA)成为核心技术支撑。两者虽同属多模态融合架构,但定位与能力边界差异显著,共同构建了 “理解 - 决策 - 行动” 的智能驾驶链路。
VLM 与 VLA 的核心区别在于能力维度的延伸。
VLM 聚焦 “感知与理解”,是自动驾驶的 “认知核心”,核心任务是实现视觉数据与语言信息的跨模态对齐。它接收摄像头、激光雷达等传感器数据,结合交通规则文本、导航指令等语言信息,完成场景语义解析、交通标识理解和自然语言交互等任务,让车辆从 “看清” 升级为 “看懂” 复杂路况。
而 VLA 则在理解基础上新增 “动作执行” 维度,形成 “感知 - 决策 - 行动” 闭环,直接输出转向、加速等控制指令,是连接认知与实操的 “执行核心”。
此外,VLM 对时序建模需求较弱,延迟敏感性中等;VLA 则需强时序建模能力,对实时响应要求极高,且必须融入安全约束设计。
技术路径上,VLM、VLA呈现 “递进式” 架构特征。
VLM 的技术核心是多模态融合与语义推理,通常采用 “视觉编码器 + 语言处理器” 双模块架构:视觉端通过 DINOv2、CLIP 等模型提取环境特征,语言端依托轻量化大语言模型处理文本指令,通过跨模态注意力机制构建统一特征空间。为适配车端部署,还需通过 MoE 稀疏架构等技术实现算力优化。
VLA 则在 VLM 基础上增设动作解码器模块,形成 “感知 - 理解 - 控制” 端到端架构。其技术重点包括三方面:一是引入 3D 高斯等空间表征技术提升环境感知精度;二是采用 Diffusion 扩散模型生成平滑驾驶轨迹;三是结合强化学习与人类反馈优化(RLHF)对齐人类驾驶偏好。理想 MindVLA、小鹏 XVLA 等量产方案均依托英伟达 Thor 等高性能芯片,通过 “快思考 + 慢思考” 双推理模式平衡实时性与决策合理性。
两者并非孤立存在,而是协同运作:VLM 为 VLA 提供场景理解与策略指导,VLA 的执行结果反向优化 VLM 的认知逻辑,共同推动自动驾驶从模块化架构向端到端智能进化。
持续创作高质量文章,欢迎关注公众号。
拓驰猎头2010年成立,总部在深圳,80人+规模,全球10个+Office,如深圳、上海、北京、苏州、武汉、长沙、成都、马来西亚、美国等。专注在芯片半导体、AI大模型、智能硬件、新能源、汽车5大赛道30多个细分行业。
长期招募猎头顾问、合伙人、SOHO顾问等,欢迎私信交流。
Jason,拓驰猎头CEO,20年猎头经验。


微信号 视频号
往期精彩