当前位置：首页>自动驾驶>CVPR 2026 | 自动驾驶新范式!KIT & 深大 & 湖大 PLM:全景语言模型攻克恶劣全域场景理解

CVPR 2026 | 自动驾驶新范式!KIT & 深大 & 湖大 PLM:全景语言模型攻克恶劣全域场景理解

2026-04-17 23:14:58

在自动驾驶、AR/VR这些前沿领域，360°全景场景理解是绕不开的核心难题。现有的视觉-语言模型（VLMs）大多为窄视野的针孔图像设计，面对全景场景时，只能靠拼接多张局部图来拼凑理解。这种方式不仅割裂了场景的整体空间关系，还没法应对全景图的几何畸变问题。

近期，一篇聚焦全景-语言建模的研究成果给出了全新解决方案。该研究提出了首个大规模全景视觉问答基准PanoVQA，设计了适配全景图的稀疏注意力机制，构建了全景语言模型（PLM）框架，让模型真正实现了超越多视角拼接的360°全场景理解能力。

论文信息

题目： More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

全景语言模型：面向复杂全场景的超越性理解

作者： Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen

一、全景理解的核心痛点：数据与架构双重卡壳

现有VLMs在全景场景应用中，主要面临两大挑战：

缺乏适配的大规模数据集。现有数据集要么是多视角针孔图像的VQA数据，要么只有全景图却无对应的问答配对，更缺少遮挡、事故这类复杂场景的测试数据，没法验证模型的真实推理能力。
模型架构不兼容。全景图常用的等距柱状投影（ERP）格式，会带来严重的几何畸变，且分辨率远高于普通针孔图像。传统VLMs的密集注意力机制计算复杂度高，既处理不了畸变问题，也没法建模全景图左右边缘相连的拓扑特性。

二、PLM全景语言模型：重构360°场景理解范式

研究提出的全景语言模型（PLM），从根本上改变了全景场景的处理思路——不再拼接局部图，而是直接将单张360°全景图作为统一输入，完整保留场景的整体空间和上下文关联。

PLM的整体架构如图4所示，核心由三部分构成：全景增强的ViT、基于MLP的融合器、大语言模型（LLM）。为了兼顾局部细节和全局依赖，研究对标准ViT做了关键修改，并行加入滑动窗口注意力（SWA）和全景稀疏注意力（PSA），形成全景混合注意力（PHA）。

图4：PLM全景语言模型整体架构图

先来看滑动窗口注意力（SWA）。它负责捕捉细粒度的局部模式，把输入序列分成多个非重叠窗口，在每个窗口内独立计算自注意力。这种方式把计算复杂度从O(L²)降到O(L·Lw)，但缺点是不同窗口间的令牌无法交互，没法建模全局上下文。

而全景稀疏注意力（PSA）则解决了全局依赖的问题。它会为每个查询令牌动态选择Top-K个最相关的键令牌，只在这些关键令牌对之间计算注意力。为了让选择过程更精准，PSA还引入了门控网络，结合可学习的位置嵌入，让模型能感知令牌的位置信息，同时过滤掉无信息的区域，适配全景图的畸变特性。

三种注意力掩码的对比如图4b所示：SWA只能捕捉局部细节（蓝色对角线带），简化稀疏注意力（SSA）虽能建模长距离依赖，但模式固定，没法适配全景结构；而PHA（全景混合注意力）既保留了SWA的局部窗口优势，又能通过PSA动态连接远处的令牌（黄到橙色点），比如全景图前后、左右两侧的关联，完美适配360°场景的特性。

三、PanoVQA基准：首个大规模全景视觉问答数据集

要验证模型的效果，得有匹配的数据集支撑。研究构建的PanoVQA，是首个专门针对全景输入设计的大规模VQA数据集，包含超65万组QA对，覆盖正常驾驶、遮挡、事故三大类复杂场景。

图1：PanoVQA数据集构建流程与示例

PanoVQA的类别设计针对性极强：

PanoVQA-N：聚焦正常驾驶场景，考察模型识别物体、理解物体间及物体与自车空间关系的能力，包含场景描述、物体识别等任务。
PanoVQA-O：专门针对遮挡场景，测试模型对不可见元素的推理能力，比如判断遮挡关系、推断被遮挡物体动作等。
PanoVQA-D：围绕碰撞事故场景构建，用于风险分析，涵盖环境评估、碰撞风险判断、规避动作规划等任务。

数据集的构建过程也十分严谨（图1a）：研究整合了NuScenes、BlendPASS、DeepAccident三个现有数据集，先生成或处理全景图像（图3展示了NuScenes和DeepAccident的全景图生成流程），再格式化标注信息，用四元组（类别、方向、距离、可见性/速度等）统一表示物体属性，最后通过GPT-5-mini生成QA对，并经过自动过滤和人工评估确保质量。

图3：NuScenes和DeepAccident全景图生成流程

最终的PanoVQA包含53.8万训练集、11.5万验证集，还推出了2.5万规模的精简版PanoVQA-mini，方便高效评估。人工评估结果也证实，数据集标注质量达到了较高水准。

四、实验验证：PLM性能全面超越现有模型

研究以Qwen2.5-VL系列为基础架构，集成PSA模块后开展了大量实验，结果充分验证了PLM的优越性。

在PanoVQA测试集的零样本评估中，现有开源VLMs的表现普遍不佳，即使是性能最好的Qwen2.5-VL-32B-Ins.，平均得分也仅35.56%；专有模型如Gemini-2.5-Flash-Lite得分30.74%，Grok-3-Mini更是只有21.74%。这充分说明现有模型在全景任务上的局限性。

而经过全景微调的PLM-7B，平均得分达到45.91%，远超基础模型Qwen2.5-VL-7B的45.21%，也超越了所有对比的开源和专有模型。

消融实验进一步验证了PSA的有效性：在Qwen-2.5-3B模型上，冻结LLM仅训练视觉组件时，PSA模型得分32.14%，显著优于LoRA基线（28.55%）和标准SFT方法（29.34%），且可训练参数更少；解冻LLM后，PSA模型性能跃升至41.49%，与完全微调的3B模型相当，甚至略有超越。

参数研究还确定了最优配置：瓶颈维度设为196、Top-K值设为512时，模型性能达到峰值。此外，缩放定律研究表明，PanoVQA-mini这类小而有代表性的子集，足以支撑可靠的模型比较和快速迭代。

五、总结：重新定义全景-语言理解

这篇研究的核心价值，在于打破了传统多视角拼接的局限，提出了全景-语言建模的全新范式。PLM框架通过全景稀疏注意力模块，既解决了全景图畸变和计算复杂度的问题，又完整保留了360°场景的空间连续性；而PanoVQA数据集的推出，也填补了大规模全景VQA基准的空白。

从实际应用来看，这项研究为自动驾驶的全场景感知、AR/VR的沉浸式理解等领域提供了新的技术路径。未来，随着全景数据的进一步丰富和模型架构的持续优化，全景-语言模型有望在更多复杂场景中发挥更大作用，让AI真正看懂360°的世界。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

CVPR 2026 | 自动驾驶新范式!KIT & 深大 & 湖大 PLM:全景语言模型攻克恶劣全域场景理解

论文信息

题目： More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

全景语言模型：面向复杂全场景的超越性理解

作者： Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen

一、全景理解的核心痛点：数据与架构双重卡壳

二、PLM全景语言模型：重构360°场景理解范式

三、PanoVQA基准：首个大规模全景视觉问答数据集

四、实验验证：PLM性能全面超越现有模型

五、总结：重新定义全景-语言理解

最新文章

热门文章

随机文章

CVPR 2026 | 自动驾驶新范式!KIT & 深大 & 湖大 PLM:全景语言模型攻克恶劣全域场景理解

论文信息

题目： More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

全景语言模型：面向复杂全场景的超越性理解

作者： Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer Stiefelhagen

一、全景理解的核心痛点：数据与架构双重卡壳

二、PLM全景语言模型：重构360°场景理解范式

三、PanoVQA基准：首个大规模全景视觉问答数据集

四、实验验证：PLM性能全面超越现有模型

五、总结：重新定义全景-语言理解

15.98万买沃尔沃纯电SUV,这次真不是“等等党”赢了

工信部新车扎堆曝光,20万级SUV和旅行车要热闹了

最新文章

热门文章

随机文章