当前位置：首页>自动驾驶>一文搞懂VLA自动驾驶的过去、现在、未来:从蚂蚁爬行到人类思考

一文搞懂VLA自动驾驶的过去、现在、未来:从蚂蚁爬行到人类思考

2026-06-25 21:57:16

点击下方卡片，关注“人工智能AI与算法”公众号

自动驾驶、机器人、具身智能重磅干货，第一时间送达

2025年被称为“VLA上车元年”。到了2026年6月，理想汽车在Livis Day上放出狠话：第四季度马赫VLA智驾能力全面对齐特斯拉FSD V14。小鹏汽车也不甘示弱，第二代VLA已实现从视觉信号到动作指令的端到端直接生成。中国科学院院士欧阳明高更是断言：L4级自动驾驶可能在未来两三年内完成。

VLA，正在以前所未有的速度重塑自动驾驶的底层逻辑。它到底是什么？从哪里来？要到哪里去？今天这篇文章，带你一次性看懂VLA自动驾驶的过去、现在与未来。

一、过去：从“昆虫智能”—“哺乳动物智能”

要理解VLA的颠覆性，必须先搞清楚自动驾驶是怎么一步步走到今天的。用理想汽车CEO李想的话说，自动驾驶经历了三个智能进化阶段。

第一阶段：规则驱动——“昆虫智能”（2021年前后）

最早的自动驾驶，本质上是工程师手写百万行C++代码，通过预设规则应对各类路况。感知、规划、控制各自为政，系统依赖高精地图和人工设定的规则运行。

这套系统的核心逻辑是“匹配规则、机械执行”——优点是稳定可控，缺点是极度僵化。面对未预设的突发场景，系统会直接决策失效。它就像一只被设定好程序路径的蚂蚁：只能在特定场景中爬行，缺乏对环境的真正理解和泛化能力。

第二阶段：端到端AI——“哺乳动物智能”（2023-2024年）

2023年起，行业开始抛弃模块化拆分与人工规则堆砌，搭建“像素输入、动作输出”的全神经网络架构。特斯拉FSD V12是这一阶段的标志性起点。

端到端系统通过海量真实路况数据训练，让AI自主学习行驶决策。它解决了规则算法僵化的问题，大幅提升了平顺性与场景适配性。但致命短板也随之暴露：只有感知能力，没有理解能力。AI能识别障碍物、车道线，却无法理解场景背后的逻辑。

这就好比一只会骑车的猩猩：虽然能完成任务，但并不真正理解交通世界的规律与逻辑。

从“蚂蚁”到“猩猩”，自动驾驶走了将近十年。但真正让机器拥有“人类智能”的，是VLA。

二、现在：VLA时代全面开启

VLA到底是什么？

VLA，全称Vision-Language-Action（视觉-语言-动作）模型。简单来说，它是一个把“看”“想”“做”融为一体的AI系统。

传统自动驾驶是“眼睛看到→大脑思考→手脚执行”的分工协作，每个环节独立运作。而VLA通过一个统一的神经网络，将视觉感知（Vision）、语言推理（Language）和动作执行（Action）在同一个语义空间内完成对齐。

VLA由三个核心组件构成：

视觉编码器：将摄像头画面转化为高维特征向量；
大语言模型（LLM）骨干网络：作为决策中心，对视觉特征进行逻辑推理；
动作解码器：将推理结果转化为转向、加减速等具体动作。

VLA解决了什么？

VLA解决了传统自动驾驶最大的痛点：看得懂路况，却不懂路况逻辑。

纯视觉端到端模型是“直觉式决策”——看到什么就做什么。而VLA可以像人类司机一样：先识别路况、再理解场景、最后制定策略。它能理解交警手势、提前应对红绿灯变化、识别施工改道中的临时标志。

理想汽车曾展示过一个典型场景：遇到施工改道，传统系统可能因为识别不到预设车道线而“懵掉”，而VLA能理解“前方施工请绕行”这个语义指令，自主规划新路线。

产业格局：群雄逐鹿

进入2026年，VLA已成为自动驾驶行业最主流的技术路线之一。

理想汽车是VLA量产先行者。2025年5月发布VLA司机大模型，2026年6月Livis Day上推出马赫VLA 2.1系统，多模态计算量提升10倍，配备3D ViT感知模型，可视距离提升50%。硬件层面，自研马赫M100芯片单颗算力达1280 TOPS，双芯协同达2560 TOPS。

小鹏汽车则走得更激进。2025年11月发布第二代VLA大模型，创新性地去掉了“语言转译”环节，首次实现从视觉信号到动作指令的端到端直接生成。通过3万卡算力集群训练720亿参数基座模型，第二代VLA已能识别交警手势、提前应对红绿灯。

英伟达在GTC 2026展示自研VLA模型AIpamayo，宣布将在奔驰CLA等车型量产落地。奇瑞汽车通过猎鹰900智驾系统，将VLA引入燃油车领域。

技术阵营也出现明显分化：理想与小鹏主推VLA路径，华为与蔚来倾向世界模型，吉利与Momenta站队世界模型阵营。

三、挑战：VLA并非万能钥匙

VLA虽好，但绝非没有争议。

第一大挑战：推理速度与实时性。 VLA依靠语言模型进行推理，需要经历“视觉→语言→动作”的两次翻译，而翻译就会导致误差，反应也更慢。在高速行驶中，毫秒级的延迟都可能造成事故。有业内人士直言：VLA在未来两三年内的表现可能赶不上一段式端到端。

第二大挑战：算力与工程落地。 VLA模型的参数量动辄数百亿，对车载芯片算力提出极高要求。虽然理想已实现2560 TOPS的芯片算力，但成本与功耗仍是规模化量产的瓶颈。

第三大挑战：VLA是否只是过渡技术？ 华为、小米等玩家认为，VLA并不是自动驾驶的终极形态，只是从辅助驾驶走向全自动驾驶的过渡技术。真正的下半场竞争，早已瞄准VLA之后的下一代技术范式。

四、未来：VLA不死，只是进化

那么，VLA之后是什么？

方向一：VLA + 世界模型 = 超越人类

行业已经形成了一个共识：VLA学习“如何行动”，世界模型学习“行动之后世界会如何变化”。

世界模型可以推演未来5至10秒内各目标与智能体的交互行为。小鹏的架构中，第二代VLA从人类驾驶行为中学习“如何行动”，世界模型则通过对未来状态的预测学习“行动之后世界会如何变化”。

黑芝麻智能CEO单记章断言：“VLA加上世界模型，是高阶智能驾驶未来最有可能的技术路线，而且有机会超越人类的驾驶能力。”AlphaZero在围棋领域击败人类，预示着VLA+世界模型同样可能让机器在驾驶领域超越人类。

方向二：从“模态融合”到“物理世界智能建模”

站在2026年的技术节点，头部厂商正朝着跳出VLA的模态融合思维、转向物理世界智能建模的方向发展。VLA的核心是“看懂、读懂、动作”，而下一代自动驾驶技术的核心是“懂规律、会推演、能预判”。

理想汽车已在GTC 2026上发布了下一代自动驾驶基础模型MindVLA-o1，核心变化是将3D空间理解、多模态推理、行为生成整合至同一原生多模态模型框架。

方向三：L4级自动驾驶加速落地

欧阳明高院士预测，L4级自动驾驶可能在未来两三年内完成。L2.9将主导市场2-3年，L3渐进式扩面，L4先在封闭半封闭场景规模化。

有报告显示，VLA模型主导的端到端方案可能至2030年占据L4级市场60%份额。

写在最后

从“蚂蚁”到“猩猩”再到“人类司机”，自动驾驶用不到十年时间走完了人类数百万年的智能进化之路。

VLA不是终点。它是一场从“感知”到“认知”、从“模仿”到“理解” 的范式革命的开端。当机器不仅能看懂世界，还能理解世界、预判世界，那个曾经只存在于科幻电影里的“全自动驾驶”，正在以VLA为支点，一步步成为现实。

2026年被称为“全球自动驾驶开启元年”。而VLA，正是这个元年最硬核的技术注脚。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

一文搞懂VLA自动驾驶的过去、现在、未来:从蚂蚁爬行到人类思考

自动驾驶、机器人、具身智能重磅干货，第一时间送达

一、过去：从“昆虫智能”—“哺乳动物智能”

第一阶段：规则驱动——“昆虫智能”（2021年前后）

第二阶段：端到端AI——“哺乳动物智能”（2023-2024年）

二、现在：VLA时代全面开启

VLA到底是什么？

VLA解决了什么？

产业格局：群雄逐鹿

三、挑战：VLA并非万能钥匙

四、未来：VLA不死，只是进化

方向一：VLA + 世界模型 = 超越人类

方向二：从“模态融合”到“物理世界智能建模”

方向三：L4级自动驾驶加速落地

写在最后

最新文章

热门文章

随机文章

一文搞懂VLA自动驾驶的过去、现在、未来:从蚂蚁爬行到人类思考

自动驾驶、机器人、具身智能重磅干货，第一时间送达

一、过去：从“昆虫智能”—“哺乳动物智能”

第一阶段：规则驱动——“昆虫智能”（2021年前后）

第二阶段：端到端AI——“哺乳动物智能”（2023-2024年）

二、现在：VLA时代全面开启

VLA到底是什么？

VLA解决了什么？

产业格局：群雄逐鹿

三、挑战：VLA并非万能钥匙

四、未来：VLA不死，只是进化

方向一：VLA + 世界模型 = 超越人类

方向二：从“模态融合”到“物理世界智能建模”

方向三：L4级自动驾驶加速落地

写在最后

以全面,独当一面|全新奔驰纯电GLC SUV品鉴会活动圆满落幕

油价重返8元倒计时!11万预算买插混SUV,懂车人只盯这3台,亏电也省油

最新文章

热门文章

随机文章