一、值得关注的研究方向
1. 多专家世界模型与VLA深度融合
CoWorld-VLA提出四种专家token(语义交互、几何结构、动态演化、自车轨迹)的隐式推理框架,将世界模型从训练辅助信号升级为推理时规划条件。这一路线与VLA-World的架构层面融合形成互补,代表了VLA技术从”外挂式”向”内生式”演进的趋势。预计下半年会有更多团队在隐空间层面探索多专家分工机制。
2. 扩散模型在工业级数据下的Scaling特性
HDP框架验证了扩散规划在真实道路数据上的scaling特性:从1000万到7000万帧,多模态行为能力持续增强,长尾交互覆盖能力提升。这证明了扩散模型不仅是学术概念,在工业级数据条件下具备稳定可扩展性。对于正在推进端到端量产落地的车企(理想、蔚来、小米),这意味着数据规模可以转化为实际的规划性能提升。
3. 强化学习微调扩散规划器
ReCogDrive、HDP-RL、ReflectDrive-2等工作共同验证了一个趋势:扩散规划器先通过模仿学习预训练,再通过RL后训练强化安全能力,可以在几乎不增加工程复杂度的前提下实现性能跃升。“IL+RL”两阶段训练正在成为扩散规划的标准范式。
二、行业动态
头部公司动态
•特斯拉:FSD V14持续迭代,v14.3.2新增导航问题反馈选项,v14.3.3反应速度提升20%、夜间识别率提升30%。马斯克确认2026年底在美国十余州推出无监督FSD及Robotaxi。HW3车型V14 Lite将于6月底推出。FSD入华获Q3获批预期,CFO明确正与中国监管部门合作。
•华为:4月23日乾崑技术大会发布ADS 5.0,采用WEWA 2.0架构(云端多智能体博弈+在线强化学习,训练强度/效率各提升10倍),车端引入安全风险场理论(碰撞风险降低50%)。首发面向自动驾驶的乾崑OS、XMC 3.0、六维安全CAS 5.0、车位到车位NCA 3.0。2026年再投入180亿元研发,累计辅助驾驶里程突破100亿公里。高速L3已在23城完成路测认证,2026年内规模化落地。
•小鹏:第二代VLA于3月下旬开启全量推送,面向完全自动驾驶的首个版本,计划2027年全球交付,大众为首发客户。搭载第二代VLA的Robotaxi已开始路测,2026年内试运营。何小鹏将2026年定义为全自动驾驶拐点,提出”中国自动驾驶的DeepSeek时刻”。
•理想/蔚来/小米:北京车展期间多款新车亮相,理想L9 Livis搭载自研5nm马赫100芯片(2560TOPS),支持L3级自动驾驶;小米、蔚来持续推进端到端方案迭代。
技术路线观察
•端到端路线分化:特斯拉坚持纯视觉端到端(FSD V14),华为走多传感器融合+世界模型(ADS 5.0 WEWA 2.0),小鹏押注VLA(第二代VLA)。三条路线均自称”端到端”,但感知架构、迭代模式、市场策略差异显著。2026年将成为三条路线”效果验证”的关键年。
•L3商用加速 vs L4长期主义:华为、吉利坚持L3是产业必经阶段,2026年高速L3规模化商用;小鹏、小马智行主张跳过L3直达L4。公安部GA/T 2388-2026标准将于7月1日实施,首次量化智驾车辆通行规则,为L3/L4划定全国统一合规边界。
•高阶智驾普惠化:零跑A10将”车位到车位”带入10万元以内市场,华为ADS 5.0覆盖15万-百万级80款车型。高阶智驾正从”顶配溢价”走向”标配普惠”,技术平权趋势明显。
监管与政策
•中国:公安部《智能网联汽车道路测试与示范应用安全通行规范》(GA/T 2388-2026)将于2026年7月1日实施,首次全维度量化智驾行车标准。工信部首批L3准入牌照已下发,华为系车型在重庆、北京等地L3试点累计7万公里测试里程。
•美国:特斯拉2026年底计划在加州、得州等十余州推出无监督FSD,需跨越各州监管差异。NHTSA将FSD调查升级为”工程分析”,涉及320万辆汽车。
•欧洲:荷兰车辆管理局(RDW)预计2026年4月批准FSD在限定区域运营,欧盟范围内批准可能于夏季实现。
三、本周推荐论文详解(3篇)
论文1:【学术型】CoWorld-VLA
基本信息 - 类型: 学术型 - 发布日期: 2026-05-13 - 作者: Minqing Huang 等 - 机构: 学术研究机构 - 发表: arXiv preprint (arXiv:2605.10426) - 文章地址: https://arxiv.org/abs/2605.10426
主要内容
CoWorld-VLA 提出了一种多专家世界推理框架,将世界模型与 VLA(视觉-语言-动作)统一在同一个架构中。现有 VLA 模型的文本链式思维(CoT)无法保留连续时空结构,而隐式世界推理又难以直接作为动作生成的条件。CoWorld-VLA 通过多源监督提取互补的世界信息,并将其编码为 VLA 中的专家 token,为规划器提供可访问的条件信号。
具体构建了四种专家token:语义交互 token(建模交互意图)、几何结构 token(道路布局与空间约束)、动态演化 token(未来时序动态)和自车轨迹 token(行为目标)。在动作生成阶段,采用基于扩散的分层多专家融合规划器(HMEF),在联合去噪过程中将专家 token 与场景上下文耦合,生成连续的自车轨迹。
核心创新点 1. 多专家隐式推理框架:在VLM 隐空间中构建四种专家 token 形成规划导向的 Latent CoT,分别建模语义交互、3D 几何、动态演化和自车轨迹,互补信息比单一表示更完整。 2. 扩散式分层多专家融合规划器:将专家token 转化为轨迹生成条件,通过渐进去噪产生连续轨迹,桥接世界建模与动作生成的鸿沟。 3. 显式世界-动作耦合:世界知识从训练辅助信号升级为推理时规划条件,不同来源的世界知识在去噪过程中共同参与轨迹生成。
推荐理由/落地价值
CoWorld-VLA 代表了 VLA 与世界模型融合的新路线。与 VLA-World(4月,架构层面融合)不同,CoWorld-VLA 在隐空间层面实现深度融合,四种专家 token 的设计可直接对应工业界感知、预测、地图、规划模块的功能划分。NAVSIM v1 上 PDMS 达到 89.8,规划性能 SOTA 级。对于正在研发下一代端到端架构的车企(华为、小鹏、理想),这种”多专家分工+统一去噪融合”的思路具有很高的工程参考价值。
论文2:【学术型】VLA-World
基本信息 - 类型: 学术型 - 发布日期: 2026-04-10 - 作者: 待补充(arXiv预印本) - 机构: 上海交通大学/华为中央研究院 - 发表: arXiv preprint (arXiv:2604.09059) - 文章地址: https://arxiv.org/abs/2604.09059
主要内容
本文提出了一种将视觉-语言-动作(VLA)大模型与世界模型(World Model)统一的学习框架,用于自动驾驶。传统端到端驾驶模型通常只处理感知到动作的映射,缺乏对语言语义和世界动态演化的联合建模。VLA-World通过联合训练视觉编码器、语言理解模块和动作预测头,在世界模型的隐空间中融合语言指令与视觉观测,实现了”看懂场景—理解指令—预测未来—输出动作”的完整闭环。实验在 nuScenes 和 CARLA 等基准上验证了该方法在多模态指令跟随、长程规划与零样本迁移上的优势。
核心创新点 1. VLA与世界模型的统一架构:首次将视觉-语言-动作模型嵌入世界模型的隐空间,语言语义可直接影响未来状态预测与轨迹规划。 2. 多模态闭环训练:通过联合优化感知、语言、预测与控制损失,模型在观测缺失或模糊时仍可借助语言先验保持鲁棒性。3. 零样本场景泛化:利用语言描述作为”软提示”,模型在未见过的新场景(如特殊交通规则区域)中表现出更强的迁移能力。
推荐理由/落地价值
VLA-World代表了端到端自动驾驶向”具备常识理解能力”演进的关键方向。当前工业界的端到端方案(如特斯拉FSD、华为ADS)主要依赖纯视觉或多模态感知,对自然语言级别的指令理解(如”避开施工路段”“找充电桩停车”)仍依赖规则或后处理。VLA-World提供的统一框架为下一代”人机共驾”和”语音控车”提供了技术基座。预计1-2年内,头部车企可能在座舱助手与智驾的融合中借鉴该思路。
论文3:【工业落地型】Hyper Diffusion Planner (HDP)
基本信息 - 类型: 工业落地型 - 发布日期: 2026-03-05 - 作者: 清华大学AIR/小米汽车团队 - 机构: 清华大学智能产业研究院 / 小米汽车 - 发表: arXiv preprint - 文章地址: https://air.tsinghua.edu.cn/info/1007/2522.htm
主要内容
HDP(Hyper Diffusion Planner)是面向真实道路部署的扩散模型端到端自动驾驶规划框架,由清华大学AIR与小米汽车联合发布。研究重点解决了扩散模型在自动驾驶规划任务中的训练稳定性与轨迹质量问题:
1.扩散损失空间优化:系统比较了9种预测-损失组合(tau0/v/epsilon预测与监督的全组合),发现tau0-pred + tau0-loss在规划任务中收敛速度和稳定性显著优于通用配置,生成轨迹更平滑。
2.Hybrid Loss双优融合:同时施加速度误差监督(保证局部动力学一致性)和积分后waypoint监督(避免轨迹偏形),理论上证明仍对应有效的扩散学习目标。
3.工业级数据Scaling验证:从1000万到7000万帧的受控扩展实验显示,数据规模提升后多模态行为能力显著增强,开环与闭环指标持续提升,验证了真实场景中的scaling特性。
4.RL后训练强化安全:在IL预训练后,通过带KL正则的离线RL优化目标,用exp(beta * r)对高回报轨迹放大权重,实现简单回报加权的扩散监督,几乎不增加工程复杂度。
核心创新点 1. tau0-pred + tau0-loss最优配置:针对规划任务特性重新校准扩散模型的基础训练坐标系,收敛速度和轨迹质量显著优于通用图像生成范式。2. Hybrid Loss统一几何与动力学:通过双轨监督解决waypoint表示(几何对齐好但速度抖动)与velocity表示(动力学平滑但形状恢复差)的trade-off。 3. 加权扩散监督实现RL:将带KL正则的RL优化目标”折叠”进扩散训练,用回报权重替代复杂的多步MDP/PPO方法,工程实现极简。
推荐理由/落地价值
HDP是工业界少有的在真实道路闭环中验证扩散规划可行性的工作。近亿级真实帧的验证规模、与小米汽车的产业合作背景,使其具有直接量产落地的潜力。Hybrid Loss和tau0配置的发现为扩散规划提供了”标准训练配方”,而RL加权监督方法解决了安全关键场景中模仿学习的局限。对于正在推进端到端量产的车企(理想、蔚来、小米、华为),HDP提供了一条从”能跑”到”跑得稳、更安全”的完整技术路径。