2025年8月,宇树科技创始人王兴兴公开表示对当下火热的VLA模型“保持比较怀疑的态度”,直言其是“相对比较傻瓜式的架构”。
三个月后,理想自动驾驶负责人郎咸朋发布长文,以“空谈架构不如看疗效”强势回应,强调理想拥有“数百万辆车构建的数据闭环”,并称VLA是“自动驾驶最好的模型方案”。
这场争论,将“具身智能”发展路线的深层矛盾摆上台面。
(参考阅读请点击:
《理想自动驾驶负责人郎咸朋 VS 宇树科技创始人王兴兴:空谈架构不如看疗效!VLA“口水战”背后戳中了谁的痛处?》)

VLA(视觉-语言-动作)模型的核心逻辑是端到端学习,让系统能够像人一样,从摄像头等传感器获取的视觉信号,直接输出驾驶动作指令。
王兴兴的质疑,代表了一部分技术专家的观点:这种架构看似简洁,但可能牺牲了系统的可解释性、模块化设计的灵活性,以及在面对极端场景时的鲁棒性。在机器人领域,更传统的思路是分层、模块化,比如感知、规划、控制各自独立优化,再行整合。
而理想的坚持,源于其对规模和数据的自信。
郎咸朋强调“脱离了海量真实数据谈模型架构都是空中楼阁”,这直指核心。
VLA作为数据驱动的模型,其性能高度依赖于数据规模和质量。
理想凭借其庞大的量产车交付量(预计2025年将达50-60万辆),能够构建起业内领先的“数据飞轮”——
更多车辆在路上跑,产生更多场景数据,驱动模型迭代更快,进而提升用户体验,促进更多销量。
在这个逻辑下,看似“傻瓜”的端到端架构,反而可能因其高效利用海量数据的能力,成为最“聪明”的选择。
郎咸朋“看疗效”的底气,根植于理想汽车难以被轻易复制的现实世界数据资产。
这不仅是技术资产,更是核心商业壁垒。
截至2025年上半年,理想L系列累计交付量巨大,这意味着其AD智能驾驶系统的用户基数和行驶里程已相当可观。
这些真实道路数据覆盖全国各种复杂路况,特别是城市NOA(自动导航辅助驾驶)的激活和使用数据,对于训练VLA理解并应对“中国特色”交通场景(如密集的非机动车、特殊的道路标识、复杂的路口博弈等)至关重要。
当友商还在为获取足够多的高质量、高价值场景数据发愁时,理想的数据闭环已经高速运转。
这种优势在VLA路线下会被放大。
因为VLA旨在让模型“像人一样思考与反应”,它需要的不是经过精心标注的结构化数据,而是海量的、连续的真实驾驶视频与对应操作序列。
这正是大规模量产车队的天然优势。
相比之下,专注于人形机器人、尚未大规模商业落地的宇树科技,在获取同等规模和多样性的物理世界交互数据上,确实面临更大挑战。
这场辩论,本质上是拥有场景与数据的一方,对专注前沿架构探索的一方的“降维回应”。
争论背后,是两家公司对“具身智能”终极形态的不同判断,这导致了技术路线的自然分野。
理想汽车CEO李想曾清晰指出,未来具身机器人核心有两种形态:汽车类的具身机器人和人形类的具身机器人。
理想明确选择并深耕第一条路。
汽车作为“具身智能体”,其形态、应用场景(开放道路运输)、交互模式(载人/载货)都相对明确,这使得其技术演进可以高度围绕驾驶这一核心任务展开。

VLA架构,正是为“从看到开”这个单一但极其复杂的任务量身定制的“专用智能”路径。
而宇树科技主攻人形机器人,其目标是在非结构化的泛化环境中完成多种任务,对灵活性、适应性、可解释性的要求可能更高。
在这种愿景下,对VLA这种“黑箱”式、强任务导向的架构持审慎态度,也在情理之中。这并非对错问题,而是场景定义技术的必然结果。
郎咸朋透露,理想的VLA不仅服务现有汽车,也将“服务于未来的汽车类具身机器人”。
这表明理想正将其在智能驾驶上积累的数据与模型能力,视为通向更高级别自动驾驶乃至轮式机器人服务的阶梯。
他们赌的是,在特定、高价值的垂直领域(出行)实现超级智能,比率先造出一个“通用”但能力平均的人形机器人,商业路径更短、更清晰。
“空谈架构不如看疗效”的喊话,看似是对质疑的直接反驳,实则吹响了自动驾驶竞争进入深水区的号角。
当技术路线初步明朗,竞争的关键就从“PPT创新”转向了数据规模、工程化能力与商业闭环的硬实力比拼。
理想与宇树的这次交锋,清晰地勾勒出“具身智能”战场的两条主线:
一条是以汽车为载体,依托庞大现实数据与明确场景,追求在垂直领域实现极致性能的“务实派”;
另一条是以人形机器人为载体,探索通用架构与能力,面向更广阔但不确定未来的“探索派”。
在通往真正智能的道路上,这两种路径或将长期并存、相互借鉴。而当下,手握“数百万辆车”这张王牌的理想汽车,显然更有底气为其选择的VLA之路,给出看得见的“疗效”。
来源:无人驾驶世界 公众号
备注:本文略有编辑,标题有修改

期待您的关注、点赞、在看、转发