「机构眼·调研内参」机构投研资源平台
加入社群·微信:Buddha_Research

发言人 问:世界模型在AI领域的发展情况如何?
发言人 答:自20年代以来,世界模型作为AI技术的一个重要方向被广泛提及。目前,全球各大模型厂商如英伟达、谷歌等都在积极投入研发世界模型相关技术,除了云服务外,几乎成为了一个共同的发展趋
势。发言人 问:为什么传统的基于规则的自动驾驶感知团队开始减少开发人员?发言人 答:随着技术进步,自动驾驶领域正从传统的基于规则的路线转向世界模型加VLA(价值函数学习)的技术路径。物理AI的概念兴起,使得原本感知团队的工作逐渐可以通过更先进的模型来实现,从而减少了对专门感知团队的需求。
发言人 问:VLM(视觉到语言到行动)在自动驾驶中的作用是什么?
发言人 答:VLM技术将视觉信息转化为语言理解,例如识别行人并据此做出避让或刹车等操作。像理想这样的自动驾驶厂商开始采用VLM概念,并取得了一定成效。从2024年开始,越来越多的厂商开始尝试并将VLM路线应用于自动驾驶系统中。
发言人 问:物理AI如何在智能汽车和机器人领域发挥作用?
发言人 答:物理AI不仅应用于智能汽车的自动驾驶,还能够用于车内外各种仿真的场景,比如车辆动力学仿真、底盘控制优化以及电池热管理等。它可以在研发阶段预先模拟各种路况,对产品进行动态调校,优化实际使用体验,例如比亚迪就在车身动力学和电池热管理方面建立了物理模型。此外,物理AI还能够赋能机器人领域,帮助机器人实现类似汽车自动驾驶的大脑功能,模拟真实环境中的观察、预判和动作选择。
发言人 问:最终形成的情况是什么?
发言人 答:最终形成的情况是一个数字孪生体,物理实体如车辆被映射到虚拟环境中,这属于物理AI范畴,但表现不那么显性。真正的智能汽车发展到目前为止还处于1.0阶段,许多环节才刚刚开始,而不仅仅是加入简单的自动驾驶功能。
发言人 问:智能汽车目前的发展状况如何?
发言人 答:目前智能汽车仅发展到1.0阶段,很多方面才刚开始探索。真正的智能汽车将结合内容智能(如LIM到自主工作的云AI agent协同)和物理世界智能,使车辆各组件及中央计算单元能通过物理AI增强功能,并利用世界模型对未来进行预测。
发言人 问:世界模型的作用是什么?物理规律在世界模型中如何体现及未来发展展望?
发言人 答:世界模型相当于人类大脑的基础功能,能够对物理世界、虚拟世界和抽象世界进行通用表征并做出未来预测,便于智能汽车和机器人的决策操作。在物理AI方面,由于汽车场景相对二维,对物理学依赖较小。尽管如此,将物理规律加入世界模型后,可以降低对真实场景数据的需求,通过MEOUE等方式实现work round。但目前物理动力学并未完全应用于自动驾驶和机器人智能中,主要还是采用端到端的VLA方向发展。
发言人 问:数据采集方面有哪些新进展?
发言人 答:现在通过泛化能力和减少对数据依赖性的方法,以及利用仿真生成大量虚拟数据与真实数据结合,可以减少前期的数据采集工作。同时,在低成本国家如印度和东南亚采用第一人称视角的数据采集方式,通过摄像头等设备记录操作人员的工作场景,用于训练模型。
发言人 问:对于物理AI应用在视觉模型和VRA模型上,现状如何?
发言人 答:随着仿真和实际数据采集技术的进步,包括合成数据在内的混合数据训练方式已成为主流,大部分公司采用80%以上的仿真数据和真实数据混合训练模型。这种虚拟与现实相互调用的关系使得模型感知不到使用的是虚假数据,训练效果接近真实场景。
发言人 问:在虚拟环境训练后,如何解决机器人迁移至物理场景时的gap问题?
发言人 答:这是一个挑战,需要弥补仿真与现实之间的差异。例如英伟达的Cosmos通过预判物理一致性来尝试解决这一问题。
发言人 问:为什么机器人落地速度相比自动驾驶慢很多?自动驾驶技术和机器人技术之间是否存在可迁移性?
发言人 答:主要原因在于数据复杂度、场景碎片化以及工程化问题。自动驾驶领域由于早期有分布式控制的经验积累,且大量数据可以复用,环境相对简单,如高速公路或封闭场景,数据量充足,模拟环境成熟,因此进展较快。存在一定可迁移性,因为很多做自动驾驶的人才转向了机器人领域,但自动驾驶对精度的要求远低于部分机器人应用场景,如康养型机器人,其对精度的要求极高,所以不能一概而论。
发言人 问:机器人面临的具体困难是什么?
发言人 答:机器人面临的问题包括数据割裂、场景碎片化严重,导致真实场景下数据采集量与训练良好模型所需数据量差异巨大,尤
发言人 问:不同场景对机器人准确性和实时算法能力的要求有何不同?
发言人 答:不同场景要求不同。例如,在工业生产线上,有的场景要求毫秒级精度和低时延决策控制,这比自动驾驶更为严苛,需要机器人具备端侧高效的推理能力和瞬间决策控制能力。
发言人 问:现在世界模型的应用阶段及其未来发展重点是什么?
发言人 答:世界模型目前正朝着强化物理预判和因果推理的方向发展,是一个重要的发展方向。然而,随着多模态大模型的出现,数据种类和量的指数级增加使得模型复杂度提升,未来需要解决如何有效管理和融合这些多样化的数据以推动世界模型应用的进一步发展。
发言人 问:在多模态大模型中,与过去LLM相比,现在是否不允许出现幻觉现象?
发言人 答:是的,在用于真实工业场景的多模态大模型中,不允许出现类似的幻觉现象。特别是在自动驾驶和具身智能的端到端VRA系统中,由于训练模型的数据量不足和端测算力不够高,可能导致系统稳定性、可靠性存在问题。
发言人 问:VLA的优点是什么?同时它也带来了什么新问题?
发言人 答:VLA的优点在于能够更好地处理长尾case,但同时也带来了一个新问题,即端到端的结构使得整个模型成为一个黑盒子,对于验证(validation)来说特别困难,因为无法深入了解其中的具体过程。
发言人 问:自动驾驶系统需要满足哪些行业认证标准?
发言人 答:自动驾驶系统需要通过ISO26262ACLD认证,未来预计机器人也会需要通过类似IC61508的CLCL four认证。这种高要求会导致在验证模型时面临复杂性,尤其是功能性安全验证,由于模型的黑盒性质,这将极具挑战性。
发言人 问:使用端到端LAVLA和加世界模型的方式实现智能驾驶,会对通过车规级认证带来何种影响?
发言人 答:这种方式可能导致今后的智能驾驶系统难以通过车规级的ISO26262ACLD认证,因为要实现功能性安全验证较为困难,这成为未来的一个规范和技术挑战。
发言人 问:对于目前提出的用通用大模型解决机器人各种场景问题的看法是什么?
发言人 答:不太认同这种做法,因为机器人应用场景碎片化严重,不同形态和功能的机器人所面对的数据和行为差异很大,难以用一个通用模型适配所有场景。目前更倾向于针对特定场景和机器人本体进行定制化的模型训练。
发言人 问:当前获取机器人所需各类数据的方式有哪些?
发言人 答:获取数据的方式主要包括直接采集真实环境数据以及通过仿真生成虚拟数据。目前都在使用这两种方式,仿真数据占比相对较高,但仿真与真实世界的gap较大,需要经过模型适配、finetuning等过程以适应真实场景。
发言人 问:在预训练环节中,是否会利用基于3D引擎生成的真实空间数据?
发言人 答:在早期模型训练阶段,肯定是使用真实数据来建立基础,以便未来更好地吸收仿真数据。最新的流行技术之一就是从第一人称视角(
发言人 问:对于数据采集方式,您认为未来大厂是否会自己做更多,还是更倾向于采用第三方数据,比如合成类或真实数据?
发言人 答:我个人认为,这与早期语音和视觉领域类似,初期可能主要依赖第三方采购的数据,如外包给不同地区的人进行语音、方言等数据采集。对于自动驾驶领域,虽然可以使用仿真数据进行初期优化,但最终仍需真实数据来确保模型在不同国家和地区应用时的有效性。因此,数据采集和标注工作可能会交给第三方公司完成,尤其是那些专门从事智能数据采集和标注的公司,它们可能会在东南亚、印度等地利用大量人力进行工作。
发言人 问:是否有第三方厂商会去做仿真类、虚拟类的数据提供?
发言人 答:肯定会有的。目前已经在制造层面帮全球厂商提供真实场景和虚拟数据的加入,例如将正常路况数据采集后,混合极端天气条件下的数据,形成混合数据供自动驾驶技术进行测试。
发言人 问:如果客户数据需求量较少,供应商如何保证商业模式的可持续性?
发言人 答:这是一个挑战,因为数据投资成本巨大,若客户数据量不足以支撑大量投入,供应商可能面临商业模式难以回收成本的问题。行业目前对此存在犹豫,因为还未达到智能涌现的节点,数据量不足,难以通过单一场景实现大规模回报。
发言人 问:物理世界智能训练模型与之前LM模型有何不同?
发言人 答:物理世界智能训练模型与之前LM模型的主要区别在于,物理模型需要针对特定场景采集大量数据,而LM模型可以利用互联网上的海量数据快速提升智能。目前物理世界数据量有限,无法达到类似效果,所以行业仍处于发展阶段,需要逐步积累成功案例。
发言人 问:合成数据如何解决边缘小众场景中的问题?
发言人 答:合成数据可以在一定程度上解决边缘小众场景的问题,但与真实环境之间存在gap,关键在于如何缩小这个gap,保证模型部署时的表现不受太大影响,这是一个挑战。
发言人 问:物理一致性随着长时间拉长到10分钟会出现什么问题以及解决办法是什么?
发言人 答:随着时间延长,物理一致性的挑战主要体现在视觉模型的记忆系统上,上下文存储需求将变得巨大,需要更大的记忆体。目前存在技术挑战,需要寻找方法用更少的记忆体存储更多信息并支持更多场景推理。
发言人 问:未来1-2年内关于物理模型和物理I可能有哪些技术突破?
发言人 答:未来端到端的世界模型加VLA的计算方式将是发展趋势,同时也会面临新的挑战,比如车路协同、机器人群体智能等场景的协同世界模型,以及如何在有限记忆体条件下存储更多上下文信息,支持更多复杂场景推理。