当前位置：首页>自动驾驶>越野自动驾驶的VLM新范式:Visual Prompt Based Reasoning

越野自动驾驶的VLM新范式:Visual Prompt Based Reasoning

2026-05-13 08:33:52

在自动驾驶领域，我们已经习惯了这样的设定：

有车道线
有高精地图
有规则交通

但现实世界的绝大部分区域，其实是： 🌍 没有路的森林、沙地、碎石坡、草地—— 这些环境构成了真正困难的任务： 👉 越野自动驾驶（Off-road autonomy）而一篇最新工作提出了一个很不一样的思路： 🧠 不再训练模型识别地形，而是让大模型“理解哪里能走” 在过去，越野自动驾驶通常依赖多个模型：

地形分类（grass / rock / sand）
高度估计（elevation）
打滑预测（slip）
可通行性判断（traversability）

问题在于： 👉 每一个都要单独训练但现实是： ❗ 越野环境高度多样，几乎不可能覆盖所有情况结果就是：

泛化差
容易失效
工程复杂

https://arxiv.org/abs/2604.04564

这篇论文提出： ❗ 把问题从“分类”变成“推理” 核心流程： 👉 先分割 → 再让大模型选哪些能走 👇

图1：越野自动驾驶统一框架（SAM2 + VLM + Planning）这个系统由四个模块组成：

1️⃣ 分割模块（Segmentation）

使用 SAM2 生成图像分割
每个区域赋予编号（1,2,3…）

👇

图2：Point Prompting 相比自动分割更高效 👉 关键点：

采用“点提示（point prompting）”
比默认 mask 生成快约3倍

2️⃣ VLM 推理模块（核心）

将：

原图
分割图

拼接成一张图，输入大模型： 👉 问题：哪些区域是可行驶的？输出： 👉 数字编号（如 3, 4） 👇

图3：不同 VLM 对可行驶区域的判断结果对比 👉 这里发生了一个本质变化： 🧠 从“识别是什么” → “判断能不能走” 例如：

草地 ≠ 一定可走
石头 ≠ 一定不可走

3️⃣ 标注与数据构建（很工程但很重要）

👇

图4：基于分割结果的人机交互标注界面这个设计很巧妙：

点击 mask → 加入 ground truth
再点 → 删除
三次 → 重置

👉 快速构建数据集

4️⃣ 仿真环境与系统验证

👇

图5：基于 Unreal Engine + Isaac Sim 的越野仿真环境特点：

自建地形（草地 / 岩石 / 沙地）
使用 Polaris 越野车模型
ROS2 数据流

5️⃣ 路径规划与控制

系统将 VLM 输出转为：

栅格地图（0=可走，1=障碍）

然后使用：

D* Lite → 全局路径
Hybrid A* → 局部路径

控制：

Stanley（方向）
PID（速度）

✅ 1. 真正 Zero-shot

无需训练：

沙地 ✔
草地 ✔
石头 ✔

👉 全靠模型理解

✅ 2. 系统极大简化

过去：多模型 pipeline（复杂）现在：分割 + 大模型 = 一个系统

✅ 3. 更接近人类驾驶逻辑

人类不会： “这是 grass → 分类 → 决策” 而是： “这块看起来能走” 👇

图6：不同预测结果的评分机制示意（1 / 0.5 / 0）

📈 模型对比

👉 关键结论：

大模型更准
小模型更快

🚗 实际导航测试

👇

图7：路径规划与目标点测试结果：

A：100% 成功
B：100% 成功
C：40% 成功

失败原因： 👉 模型没有识别“沟”为障碍

❌ 1. 不稳定（Non-deterministic）

同一输入： 👉 输出可能不同

❌ 2. 缺乏物理理解

例如：

坡度是否可行
是否会打滑

❌ 3. 多尺度能力不足

在低分辨率数据集表现下降明显它最重要的不是性能，而是：

🚨 自动驾驶范式正在改变

从： 👁️ 感知驱动（Perception）走向： 🧠 推理驱动（Reasoning）如果你做：

自动驾驶
机器人
多模态大模型

这几个方向值得关注：

🧪 1. VLM → VLA（行动模型）

从： 👉 看 + 理解到： 👉 看 + 理解 + 行动

🧪 2. 可解释决策

让系统回答：为什么走这条路？

🧪 3. 多模态融合

加入：

深度
LiDAR
时序

🧪 4. 从仿真走向真实

👉 当前仍在模拟环境验证这项工作最大的价值，在于让自动驾驶系统开始“思考”。它不再只是识别世界，而是开始理解世界。 ✨ 持续关注，我们将带来更多自动驾驶与机器人前沿论文解读 ✨欢迎对越野机器人感兴趣的同行加微信交流：15711463195

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

越野自动驾驶的VLM新范式:Visual Prompt Based Reasoning

1️⃣ 分割模块（Segmentation）

2️⃣ VLM 推理模块（核心）

3️⃣ 标注与数据构建（很工程但很重要）

4️⃣ 仿真环境与系统验证

5️⃣ 路径规划与控制

✅ 1. 真正 Zero-shot

✅ 2. 系统极大简化

✅ 3. 更接近人类驾驶逻辑

📈 模型对比

🚗 实际导航测试

❌ 1. 不稳定（Non-deterministic）

❌ 2. 缺乏物理理解

❌ 3. 多尺度能力不足

🚨 自动驾驶范式正在改变

🧪 1. VLM → VLA（行动模型）

🧪 2. 可解释决策

🧪 3. 多模态融合

🧪 4. 从仿真走向真实

最新文章

热门文章

随机文章

越野自动驾驶的VLM新范式:Visual Prompt Based Reasoning

1️⃣ 分割模块（Segmentation）

2️⃣ VLM 推理模块（核心）

3️⃣ 标注与数据构建（很工程但很重要）

4️⃣ 仿真环境与系统验证

5️⃣ 路径规划与控制

✅ 1. 真正 Zero-shot

✅ 2. 系统极大简化

✅ 3. 更接近人类驾驶逻辑

📈 模型对比

🚗 实际导航测试

❌ 1. 不稳定（Non-deterministic）

❌ 2. 缺乏物理理解

❌ 3. 多尺度能力不足

🚨 自动驾驶范式正在改变

🧪 1. VLM → VLA（行动模型）

🧪 2. 可解释决策

🧪 3. 多模态融合

🧪 4. 从仿真走向真实

“一价定生死”!过去两天,七款SUV公布了价格

从自动驾驶跳到具身智能,薪资涨不动了

最新文章

热门文章

随机文章