总结
本次会议围绕“世界模型与物理AI”在自动驾驶与机器人领域的应用展开深入探讨。核心观点是:世界模型与VLA(视觉-语言-行动)构成的端到端架构,正成为智能汽车与具身智能发展的关键技术方向,但其商业化落地仍面临数据、验证、成本等多重挑战。
具体要点如下:
- 技术演进路径:自动驾驶技术正从传统的“感知-规控”线性架构,经由BEV+Transformer、VLM(视觉语言模型)等中间形态,向端到端的VLA架构演进。该架构模仿人类认知,直接从视觉输入映射到行动决策,能更好地处理长尾场景。特斯拉FSD、理想汽车等已开始应用相关概念。
- 物理AI的广义内涵:物理AI不仅指世界模型对物理规律的遵循,更广泛地包括了数字孪生、合成数据与仿真工具链。其应用场景超出自动驾驶与人机交互,延伸至车辆热管理、车身动力学、整车电子电气架构的虚拟验证等深层工程领域,是打造真正智能汽车的关键。
- 数据需求巨大:VLA及世界模型需要海量多模态数据进行训练,数据量呈指数级增长。
- 数据来源:当前以合成数据(仿真)为主,占比可达80%以上,混合真实数据使用。真实数据采集出现新范式,如第一人称视角(Egocentric)数据采集,通过廉价劳动力佩戴设备录制操作过程,为机器人训练提供高质量数据。
- 数据碎片化与成本悖论:机器人应用场景极度碎片化,单一场景数据量有限,但模型训练需求却很高,导致前期数据采集与标注的投入产出比(ROI)面临严峻挑战,可能阻碍商业化落地。
- 场景复杂度:自动驾驶环境相对统一、规则明确;机器人场景则高度碎片化,且家庭等服务场景个性化极强。
- 性能要求:机器人对动作控制的精度和实时性(低时延)要求远高于自动驾驶,尤其在工业、康养等关键场景。
- 技术迁移:自动驾驶技术可部分迁移至机器人,但由于上述差异,完全复用存在困难,低估难度可能导致失败。
- 验证与认证:端到端VLA模型是“黑盒”,难以进行符合车规级(如ISO 26262)或工业安全标准的功能安全验证,这是未来商业化的重要障碍。
- 物理一致性与长程记忆:世界模型在长时间序列中保持物理一致性是一大难点,涉及庞大的上下文记忆系统,对存储和计算提出更高要求。
- 未来发展:下一步技术突破可能集中在多智能体协同(车路协同、机器人群体智能)以及记忆系统的优化上。
会议实录:
主持人开场:
大家好。今天会议主题是“世界模型与物理AI:自动驾驶与机器人的技术进展及路径展望”。我们很荣幸邀请到该领域的资深专家进行分享。下面有请我的同事和专家。
专家分享:
大家好。我结合自动驾驶和机器人领域,分享一些工程实践中不易感受到的理解。
一、技术路径演进:从规控到端到端VLA
早期自动驾驶基于“感知-定位-预测-规划-控制”的规控路线,是线性的、基于规则的架构。例如Momenta等公司近期裁剪感知团队,正是因为技术路线在转变。
随后出现了BEV+Transformer技术,将3D世界分割为体素,从鸟瞰图视角训练,实现了部分端到端,减少了步骤划分。
2023年左右,VLM(视觉语言模型)开始应用,如理想汽车,其核心是将视觉信息转化为语言描述(如“前方有行人”),进而指导行动。从2024年开始,行业进一步尝试VLA(视觉-语言-行动),即从视觉直接到语言再到行动指令的端到端映射。同年下半年,这一思路扩展到具身智能机器人领域。
因此,以世界模型和VLA作为智能汽车与具身智能基础底座的厂商越来越多,例如特斯拉的FSD就已融入相关概念。
二、物理AI的广义应用
物理AI近期很火,但它与世界模型、VLA并非同一层级的概念。物理AI的应用远不止自动驾驶。
- 传统认知场景:自动驾驶(路径规划)和智能座舱(人机交互)。
- 电池热管理、车身动力学:在虚拟环境中模拟各种路况下的发热与力学表现,提前优化参数。
- 整车电子电气架构验证:在中央计算架构下,研发复杂度剧增。需要在计算机中模拟所有主要ECU,构建整车的数字孪生,进行前置验证,这都属于物理AI范畴。
真正的智能汽车需要将这些物理AI能力嵌入各个域或中央计算节点中。目前行业尚处于智能汽车1.0阶段。
三、世界模型的作用与数据挑战
世界模型的本质是对物理世界、虚拟世界、抽象世界进行统一表征,并预测未来,类似于人类大脑的预判功能。
当前发展的核心挑战在于数据:
- 数据需求与融合:从大语言模型(LLM)到多模态大模型,数据种类和量级指数增长。应用于工业场景时,不允许出现“幻觉”,对数据质量和规模要求极高。
- 数据来源与合成数据:真实数据采集存在局限。目前,80%以上的训练采用合成数据(仿真数据)与真实数据混合的模式。例如英伟达提供的是一整套包含仿真的生态系统。
- 新采集范式:第一人称视角(Egocentric)数据:为解决机器人训练数据问题,出现了一种新方法——在劳动力成本低的地区(如印度、东南亚),让人工佩戴第一人称视角摄像头进行作业录制。这种数据能精准记录操作过程,用于打磨机器人的“大脑”。
- 数据碎片化与商业悖论:机器人场景碎片化严重,每个细分场景(如不同家庭的养老机器人)所需数据都可能不同。虽然VLA旨在提高泛化能力,但模型健壮性仍依赖大量场景数据。这导致单一场景的前期数据投入巨大,但该场景的机器人出货量(Volume)可能有限,商业模式上面临投资回报挑战。这与LLM利用几乎免费的互联网数据实现“智能涌现”的路径完全不同。
四、自动驾驶与机器人的核心差异
- 场景与数据:自动驾驶场景相对统一,数据可利用性强;机器人场景碎片化,数据割裂,采集更难。
- 性能要求:自动驾驶对时延要求相对宽松(秒级),可借助云端协同;机器人(尤其是工业、康养场景)要求毫秒级低时延和超高精度控制,必须依赖强大的端侧推理能力。因此,机器人的复杂度更高。
- 技术迁移:自动驾驶人才创业做机器人是自然选择,两者技术栈有重叠。但对于高精度控制场景,直接迁移可能低估难度。
五、其他挑战与未来展望
- 验证与安全认证:端到端的VLA模型是黑盒,难以进行符合车规级(ISO 26262 ASIL-D)或工业安全标准(如IEC 61508 SIL-4) 的功能安全验证与失效概率计算,这是商业化的一大障碍。
- 物理一致性与记忆:世界模型在长时间序列中的物理一致性是一大挑战,涉及庞大的上下文记忆系统。
- 技术层面,端到端的“世界模型+VLA”架构是明确方向。
- 下一步挑战包括多智能体协同(车路协同、机器人群体智能)和记忆系统的突破,以实现更长的上下文支持和更复杂的推理。
问答环节摘要:
- 关于通用大模型:专家认为,目前机器人场景碎片化严重,不同形态机器人(轮式、机械臂、人形)数据和行为模式差异大,难以用一个通用大模型适配所有场景,仍需细分场景定制训练。
- 关于合成数据质量:合成数据可用于解决长尾场景,但虚拟与真实间始终存在Gap。需要通过真实数据微调等方式来弥合。早期模型训练仍需一定量的高质量真实数据奠基。
- 关于数据供应链:类似于早期的语音数据产业,未来可能出现第三方数据采集与标注公司,专注于具身智能数据,可能布局在劳动力成本低的地区。同时,提供混合真实与虚拟元素的“增强数据”服务也可能成为商业模式。
- 关于行业现状:专家提醒,在VLA路径成为行业共识后,需警惕其尚未被充分认知的风险,尤其是数据成本与商业回报的匹配问题。行业任重道远,需从小步成功开始积累。
会议结束。