在自动驾驶领域,我们已经习惯了这样的设定:
但现实世界的绝大部分区域,其实是: 🌍 没有路的 森林、沙地、碎石坡、草地—— 这些环境构成了真正困难的任务: 👉 越野自动驾驶(Off-road autonomy) 而一篇最新工作提出了一个很不一样的思路: 🧠 不再训练模型识别地形,而是让大模型“理解哪里能走” 在过去,越野自动驾驶通常依赖多个模型:
问题在于: 👉 每一个都要单独训练 但现实是: ❗ 越野环境高度多样,几乎不可能覆盖所有情况 结果就是:
https://arxiv.org/abs/2604.04564
这篇论文提出: ❗ 把问题从“分类”变成“推理” 核心流程: 👉 先分割 → 再让大模型选哪些能走 👇
图1:越野自动驾驶统一框架(SAM2 + VLM + Planning) 这个系统由四个模块组成:
1️⃣ 分割模块(Segmentation)
使用 SAM2 生成图像分割
每个区域赋予编号(1,2,3…)
👇
图2:Point Prompting 相比自动分割更高效 👉 关键点:
采用“点提示(point prompting)”
比默认 mask 生成快 约3倍
2️⃣ VLM 推理模块(核心)
将:
拼接成一张图,输入大模型: 👉 问题: 哪些区域是可行驶的? 输出: 👉 数字编号(如 3, 4) 👇
图3:不同 VLM 对可行驶区域的判断结果对比 👉 这里发生了一个本质变化: 🧠 从“识别是什么” → “判断能不能走” 例如:
3️⃣ 标注与数据构建(很工程但很重要)
👇
图4:基于分割结果的人机交互标注界面 这个设计很巧妙:
👉 快速构建数据集
4️⃣ 仿真环境与系统验证
👇
图5:基于 Unreal Engine + Isaac Sim 的越野仿真环境 特点:
自建地形(草地 / 岩石 / 沙地)
使用 Polaris 越野车模型
ROS2 数据流
5️⃣ 路径规划与控制
系统将 VLM 输出转为:
然后使用:
D* Lite → 全局路径
Hybrid A* → 局部路径
控制:
✅ 1. 真正 Zero-shot
无需训练:
👉 全靠模型理解
✅ 2. 系统极大简化
过去: 多模型 pipeline(复杂) 现在: 分割 + 大模型 = 一个系统
✅ 3. 更接近人类驾驶逻辑
人类不会: “这是 grass → 分类 → 决策” 而是: “这块看起来能走” 👇
图6:不同预测结果的评分机制示意(1 / 0.5 / 0)
📈 模型对比
👉 关键结论:
🚗 实际导航测试
👇
图7:路径规划与目标点测试 结果:
A:100% 成功
B:100% 成功
C:40% 成功
失败原因: 👉 模型没有识别“沟”为障碍
❌ 1. 不稳定(Non-deterministic)
同一输入: 👉 输出可能不同
❌ 2. 缺乏物理理解
例如:
❌ 3. 多尺度能力不足
在低分辨率数据集表现下降明显 它最重要的不是性能,而是:
🚨 自动驾驶范式正在改变
从: 👁️ 感知驱动(Perception) 走向: 🧠 推理驱动(Reasoning) 如果你做:
这几个方向值得关注:
🧪 1. VLM → VLA(行动模型)
从: 👉 看 + 理解 到: 👉 看 + 理解 + 行动
🧪 2. 可解释决策
让系统回答: 为什么走这条路?
🧪 3. 多模态融合
加入:
🧪 4. 从仿真走向真实
👉 当前仍在模拟环境验证 这项工作最大的价值,在于让自动驾驶系统开始“思考”。 它不再只是识别世界, 而是开始理解世界。 ✨ 持续关注,我们将带来更多自动驾驶与机器人前沿论文解读 ✨欢迎对越野机器人感兴趣的同行加微信交流:15711463195