本周VLA-World(上交+华为)和小米OneVL两篇工作标志着行业从"VLA与世界模型独立运行"走向"潜空间统一融合"。传统VLA的文本级推理链存在效率瓶颈,潜空间推理将VLA的场景感知理解与世界模型的环境时序预测统一到高维向量化空间,推理效率显著跃升。小鹏第二代VLA也选择了砍掉语言转译层的纯视觉-动作路径,说明行业正在探索VLA的轻量化与原生化方向。
华为ADS 5的WA路径 vs 行业VLA路线分化:
华为明确拒绝VLA路径,选择WA(世界模型-行为)直接控车路线。ADS 5的WEWA 2.0引入多智能体博弈和在线强化学习,训练效率提升10倍。这与小鹏、英伟达、卓驭等押注VLA的阵营形成鲜明对照。两条路线的量产效果将在2026年下半年成为关键观察窗口。
端到端自动驾驶的推理效率与车端部署:
FastDriveVLA(小鹏+北大)通过对抗性前景-背景重建策略实现视觉Token剪枝,FLOPs降低7.5倍,预填充时间减少3.7倍。VLA大模型上车面临的算力与延迟约束正成为学术界和工业界的共同焦点,Token剪枝、模型蒸馏、量化部署将是2026年的技术主线。二、本周推荐论文详解(3篇)
论文1:【学术型】VLA-World: Learning Vision-Language-Action World Models for Autonomous Driving
基本信息
·• 类型: 学术型
·• 发布日期: 2026-04-10
·• 作者: Guoqing Wang等
·• 机构: 上海交通大学、华为中央研究院
·• 发表: arXiv (预印本)
·• 文章地址: https://arxiv.org/abs/2604.09059
主要内容
本文提出VLA-World,一种将VLA世界模型能力深度内嵌到VLA架构中的统一框架。传统方案中世界模型与VLA相互独立,前者负责生成仿真视频,后者承担感知推理与决策输出。VLA-World采用单VLA主干网络,实现视觉生成与决策推理的特征共享,将轨迹预测、视觉生成整合为同一决策链路的连续环节。模型首先使用动作衍生的可行轨迹引导下一帧图像生成,捕获丰富的时空线索;然后对自生成的未来想象帧进行推理以细化预测轨迹。为支持该流程,作者构建了nuScenes-GR-20K生成推理数据集,并采用三阶段训练策略(预训练、监督微调、强化学习)。
核心创新点
1. 统一架构:首次将世界模型的视觉生成能力与VLA的推理决策能力共享同一主干网络,而非外部模块拼接
2. 因果推理链:先预测轨迹,再以轨迹为条件生成未来帧,形成"轨迹决定去哪里,画面呈现到那里看到什么"的因果依赖
3. 数据集与训练策略:构建nuScenes-GR-20K生成推理数据集,采用三阶段训练(预训练→SFT→RL)
推荐理由/落地价值
VLA-World代表了VLA与世界模型融合的新范式,从"模块化协作"走向"架构级深度融合"。华为在ADS 5中同样强调世界模型与驾驶行为的深度融合,该论文的架构思路与工业界技术方向高度一致。对车端部署而言,统一主干网络可减少模块间通信开销,降低端到端延迟。该方向将成为2026年高阶智驾架构演进的核心技术路线之一。
---
论文2:【学术型】FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning
·• 类型: 学术型
·• 发布日期: 2025-12-30(AAAI 2026录用公布)
·• 作者: 小鹏汽车、北京大学
·• 机构: 小鹏汽车、北京大学计算机学院多媒体信息处理全国重点实验室
·• 发表: AAAI 2026 (录用率17.6%)
·• 文章地址: https://arxiv.org/pdf/2507.23318
主要内容
本文提出FastDriveVLA,一种专门为端到端自动驾驶VLA模型定制的高效视觉Token剪枝框架。VLA模型在处理视觉信息时将图像编码为海量视觉Token,导致车端计算负荷大、推理效率低。传统剪枝方法(基于注意力或相似度)在驾驶场景中存在明显局限。FastDriveVLA受人类驾驶员专注前景信息的启发,设计了ReconPruner剪枝器,通过MAE风格像素重建训练,引入对抗性前景-背景重建策略增强对前景Token的感知能力。推理阶段ReconPruner可直接嵌入VLA模型,实现即插即用。
核心创新点
1. 对抗性前景-背景重建策略:增强模型对前景视觉Token的感知能力,自动过滤无关信息,只关注核心驾驶信息
2. 即插即用设计:ReconPruner无需重新训练整个VLA模型,可直接嵌入现有架构
3. 效率显著提升:视觉Token从3249减至812时,FLOPs降低7.5倍,预填充时间减少3.7倍,解码时间减少1.3倍
推荐理由/落地价值
VLA大模型上车的核心瓶颈之一是推理效率。FastDriveVLA在nuScenes开环规划基准测试中取得SOTA性能,同时实现推理效率的大幅提升,直接回应了车端部署的关键痛点。小鹏汽车已在第二代VLA中实现量产落地,该论文的技术成果与产品化路径高度一致,是学术研究与工业落地紧密结合的典范。
---
论文3:【工业落地型】小米OneVL:VLA、世界模型与潜空间推理的统一框架
·• 类型: 工业落地型
·• 发布日期: 2026-05-13
·• 作者: 小米自动驾驶团队
·• 机构: 小米
·• 发表: 技术发布/全面开源
·• 文章地址: 小米官方技术发布(佐思汽研2026智能驾驶端到端大模型研究报告引用)
主要内容
小米OneVL是小米2026年5月13日正式发布并全面开源的自动驾驶模型,核心突破在于将VLA、世界模型和潜空间推理三大技术路线统一到同一框架中。区别于传统方案将推理过程拆解为可被人类阅读的自然语言、逐字生成推演逻辑,OneVL直接在高维向量化的潜空间内完成端到端逻辑运算。潜空间同时集成VLA的场景感知理解能力与世界模型的环境时序预测能力,全部推理运算在向量层级开展,而非文本层面。
核心创新点
1. 潜空间统一融合:将世界模型的预测能力嵌入VLA训练目标中,让模型同时学习预测动作和未来环境状态
2. 向量级推理:摒弃文本级推理链,直接在高维潜空间完成端到端逻辑运算,推理效率显著跃升
3. 全面开源:小米选择全面开源OneVL,推动行业技术共享与生态建设
推荐理由/落地价值
小米OneVL代表了自动驾驶大模型的"开源化"趋势,与DeepSeek在通用AI领域引发的效应类似。潜空间推理避免了VLA传统文本推理链的效率瓶颈,对车端低延迟部署具有直接价值。小米作为新入局者选择开源策略,有助于加速行业技术收敛,同时也将加剧智驾大模型的生态竞争。该模型为后续研究者和开发者提供了完整的VLA+世界模型融合实现参考。
---
参考文献:
Wang G, et al. VLA-World: Learning Vision-Language-Action World Models for Autonomous Driving. arXiv:2604.09059, 2026.
小鹏汽车、北京大学. FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning. AAAI 2026, 2026.
小米自动驾驶团队. OneVL: Unified VLA, World Model and Latent Space Reasoning for Autonomous Driving. 小米技术发布, 2026.
Yang P, et al. WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving. arXiv:2512.19133, 2026 (AAAI 2026).
Nullmax、浙江大学. DiffRefiner: Coarse to Fine Trajectory Planning via Diffusion Refinement with Semantic Interaction for End-to-End Autonomous Driving. arXiv:2511.17150, 2026 (AAAI 2026).