初衷是为了方便自己,方便读者快速了解CV领域最新学术动态,偶尔更新若干篇论文概览。内容包括但不限制于目标检测,分割,3D重建,分类,LLM,自动驾驶,机器人,VR、AR,多模态,欢迎大家点赞+关注!
《WorldRFT: Latent World Model Planning with Reinforcement Fine-Tuning for Autonomous Driving》是中科院自动化所与理想汽车团队的最新研究。
在自动驾驶领域,传统的端到端方法往往依赖复杂的感知模块,而新兴的潜在世界模型又因重建导向的表示学习,导致规划任务优化不佳。面对这一核心挑战,研究团队提出了WorldRFT——一个面向规划的潜在世界模型框架。它通过分层规划分解与局部感知交互优化机制,将场景表示学习与规划任务对齐,并引入强化学习微调来提升安全关键策略性能。其核心创新在于集成了视觉-几何基础模型以增强3D空间感知,并提出了分组相对策略优化方法,通过轨迹高斯化和碰撞感知奖励来精细调整驾驶策略。 在实际测试中,WorldRFT在nuScenes数据集上将碰撞率降低了惊人的83%,在仅使用摄像头输入的NavSim闭环仿真中,性能媲美基于激光雷达的顶尖方法。这标志着一种更安全、更高效的自动驾驶规划新范式正在形成,为未来量产落地提供了坚实的技术路径。