当前位置：首页>自动驾驶>CVPR 2025|VideoQG+自动驾驶场景理解:因果对齐+基准构建+时序优化,破解跨模态落地难题

CVPR 2025|VideoQG+自动驾驶场景理解:因果对齐+基准构建+时序优化,破解跨模态落地难题

2026-05-13 08:46:40

自动驾驶赛道里，视觉-语言跨模态理解一直是核心关卡——既要让车看懂复杂路况，还要精准响应各类交互指令。视频问答定位（VideoQG）、车载文档解析还有动态时序感知，这些更是支撑智能驾驶落地的关键技术。

可眼下主流模型依旧痛点频发：要么陷在数据伪相关里，靠偏倚得出不可信的推理结果；要么没有统一的评测标尺，模型性能优劣难辨；要么面对长时动态路况，直接出现推理失效，完全跟不上自动驾驶高安全、高精准的硬性要求。

本次我们精选三篇CVPR 2025的重磅研究，分别从跨模态因果去偏、全场景评测基准搭建、动态时序感知优化三个方向破局，直击自动驾驶跨模态理解的核心堵点，为相关技术落地提供完整的科研参考。

我整理了10篇“因果推断＋时序定位"相关论文（包括本章3篇论文），供大家学习了解这个方向，找到课题，挖掘创新点。

扫码回复

“因果推断＋时序定位"

免费领取&进交流群

论文一：视频问题定位的跨模态因果关系对齐

1. 论文信息

论文名称：Cross-modal Causal Relation Alignment for Video Question Grounding
作者与机构：Weixing Chen, Yang Liu, Binglin Chen 等，中山大学、新加坡南洋理工大学
论文链接：https://arxiv.org/abs/2503.07635
代码链接：https://github.com/WissingChen/CRA-GQA

2. 创新点

视频问答中的“时间定位”（Video Question Grounding）要求模型不仅输出答案，还要给出答案对应的视频时间段。现有模型常犯一个毛病：答案对了，但定位的依据是错的。比如图1(a)中，模型回答“推婴儿椅”是正确的，但它的视觉注意力却集中在“气球”和“拥抱”上——这属于典型的虚假关联。

本文的核心创新是引入结构因果模型，把视频定位问题拆解为两个因果干预路径：

前门干预（Front-door Intervention）用于视觉去偏：将模型估计出的视频片段作为“中介变量”，切断视频全局特征与答案之间的虚假路径。通俗讲，就是强制模型必须“凭良心说话”——你定位到哪里，就必须依据哪里来回答。
后门干预（Back-door Intervention）用于语言去偏：通过对问题中的实体（如“baby”“woman”）进行结构化分解（主谓宾），阻断语言先验对答案的干扰。

此外，作者还提出高斯平滑定位模块，用可学习的高斯滤波器对跨模态注意力进行平滑，抵抗时间维度的噪声波动。

3. 方法/实验设计

框架命名为CRA（Cross-modal Causal Relation Alignment），整体流程如图2所示：

关键技术流程：

视频帧用CLIP提取特征，文本用RoBERTa编码；
高斯平滑定位模块计算文本与各帧的相关性，生成时间注意力，并用自适应高斯滤波去噪；
语言因果干预：将问题分解为“主语-谓语-宾语”结构图，聚类后作为混杂因子进行后门调整；
显式因果干预：将定位出的视频片段作为中介，结合全局视频特征进行前门调整，最终输出去偏后的答案。

实验在NextGQA和STAR两个数据集上进行，对比基线包括IGV、SeViLA、Temp[CLIP]、FrozenBiLM等。

4. 研究成果

从表1的结果看，CRA在NextGQA上Acc@GQA达到18.2% （比Temp[CLIP] NG+高出2.2个百分点），IoP@0.5达到28.5% ，显著优于同类方法。
更值得关注的是表1中对“偏差错误”和“不忠实回答”的量化分析：CRA将不忠实回答率从41.4%降至40.0% ，偏差错误减少1.1个百分点。这说明因果干预确实让模型“看得更准”。
从图3的可视化可以看出，CRA的注意力集中在真正相关的区间，而FrozenBiLM虽然答对了，但注意力峰值完全落在了错误的时间段——这正是“答对但不可信”的典型案例。

小结：CRA通过因果干预，把“定位”和“回答”绑在一起，强迫模型必须用定位到的证据来回答问题。这种思路对提升多模态模型的可解释性和可信度极具价值。