小米汽车自动驾驶与机器人团队,聚焦于前沿的具身智能与VLA(视觉-语言-行动)技术,致力于构建下一代自动驾驶与机器人的核心“大脑”,以实现对真实世界的深度理解、推理与交互。
1、前沿算法研究与构建:负责设计和实现领先的具身多模态大模型。您的研究将不仅限于现有的VLA框架,更将探索如何构建能够理解复杂三维世界、并进行长时序、多步骤任务规划的世界模型 (World Model)。
2、核心模型能力攻关:主导模型在以下关键能力上的突破:多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间感知。复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对物理世界的空间推理,生成安全、合理、可解释的行动序列。
3、学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量数据和与环境的交互中持续学习和进化。
4、技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力。
5、学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长期议题。在CVPR、NeurIPS、ICLR、CoRL等顶级会议上发表高水平论文,构建团队的学术护城河。
关注『TechTorch』
后台回复【小米VLA】立即投递🔽