在自动驾驶、机器人等技术方向,包括:SLAM、NeRF、3DGS、Dynamic Scene、BEV、Occupancy、World Model、VLA、World Agent 等。可以抽象出一个共同的核心问题:
机器内部,应该维护一个什么样的世界?
本质是机器内部世界(Machine Internal World)的持续演化。
从系统视角拆解自动驾驶,可简化为核心公式:
自动驾驶 = Agent × World
•
Agent(智能体):负责感知、决策、规划、执行行动
World(世界表示):为智能体提供可理解、可调用的内部世界信息
SLAM、3DGS、BEV、Occupancy、World Model 等技术,都属于世界表示(World Representation)范畴,核心解决「机器如何理解世界」的问题。
核心定义:还原世界本来的空间与物理结构,贴合真实物理世界。
长期稳定、可多智能体共享
追求场景真实还原
注重几何、外观一致性
高度贴合物理现实
SLAM、SfM、MVS、高精地图、城市重建、NeRF、3DGS、GS-SLAM、众包建图等。
核心目标:最大化真实地重建物理世界(Reality Reconstruction)。
场景建模过重、逻辑复杂,智能体无法直接高效调用、消费场景信息,实用性受限。
核心定义:以智能体行动为核心,基于任务需求压缩、抽象的个性化世界,即面向任务的条件化世界。
智能体行动时无需感知完整真实世界,仅关注任务相关核心信息:可通行区域、危险区域、碰撞风险、安全轨迹、未来场景变化等。
BEV、Occupancy、语义占据、规划空间、隐式世界状态等。
这类技术本质是以智能体为中心的世界表示(Agent-centric World),核心服务于智能体决策与行动。
场景过度抽象压缩,缺失完整的世界认知、物理一致性、场景生成能力和未来推演能力,无法支撑复杂场景的智能决策。
核心定义:融合客观真实与任务实用性的全新世界范式,是前两种范式的升级与统一。
核心逻辑:真实场景还原 + 智能行动可用 = 统一世界(Unified World)
世界开始从“静态表示”进入“可推演状态系统”。
不仅需要理解当前世界,还需要建模世界如何随时间演化,还可支撑智能体的场景预测、未来推演、实时行动,弥补前两种范式的短板。
World Model ≠ 某一种特定模型结构。
本质:World Model = World Representation + World Dynamics
即: 世界模型 = 世界表示+世界如何变化 = 可预测、可推演、可行动的内部世界
物理真实世界信息无限、极度复杂,智能体无法直接原生消费。因此,所有智能系统都必须对现实世界进行压缩、结构化、抽象,转化为适配自身任务的可用形式。
核心规律:不同智能体的任务、目标不同,所需的内部世界表示形式也不同。
机器认知世界的核心,不在于「是否看见真实世界」,而在于「机器内部维护了一个适配自身的世界」。
世界表示的演化路径:
真实世界重建 → 面向行动的任务世界 → 统一通用世界模型
核心结论:世界不是被原样复制进机器,而是根据智能体的目标、行动与任务需求,被压缩、重构与组织为适配机器使用的形式。