当前位置：首页>自动驾驶>TCSVT 2026 | 自动驾驶智能监控新利器!MFDSR:鲁棒 RGB-T 跟踪,应对复杂环境无压力

TCSVT 2026 | 自动驾驶智能监控新利器!MFDSR:鲁棒 RGB-T 跟踪,应对复杂环境无压力

2026-02-19 05:34:48

点击下方名片，进驻多模态前沿阵地。

在自动驾驶、智能监控等关键场景中，RGB-T（可见光-热成像）目标跟踪是核心技术之一。复杂环境下，光照突变、遮挡、温度干扰等问题始终存在。这些问题让模态信息的有效利用成为难题——RGB模态可能因光照不足失效，热成像模态也并非永远可靠，模态间的主导关系时刻动态变化。

近期，一篇发表于TCSVT 2026的研究《Robust RGB-T Tracking via Multi-Feature Response Adaptive Fusion and Dynamic Selection Recovery》提出了全新的MFDSR跟踪器。该跟踪器从多特征融合、跟踪评估、动态恢复三个维度破解这一痛点。在五大主流RGB-T跟踪基准上，MFDSR展现出极具竞争力的性能。

论文信息

题目：Robust RGB-T Tracking via Multi-Feature Response Adaptive Fusion and Dynamic Selection Recovery

基于多特征响应自适应融合与动态选择恢复的鲁棒RGB-T跟踪

作者：Jun Liu, Wei Ke, Hao Sheng

一、核心痛点：模态信息的动态失衡

开放环境中的目标跟踪面临诸多挑战。光照变化让RGB特征时清时糊，地面热辐射可能湮没行人的热特征，遮挡又会让两种模态同时失效（如图1）。

现有方法的不足同样明显：

决策级融合仅关注网络最后一层输出，忽略多特征响应间的相关性；
跟踪可靠性评估仅依赖单一模态，未考虑模态贡献的动态变化；
缺乏针对跟踪失败的有效恢复机制，难以应对长时跟踪场景。

二、MFDSR整体框架：多模块协同解决核心问题

MFDSR的核心思路是挖掘多特征相关性、动态评估跟踪状态、灵活恢复目标。整体流程如图2所示，主要包含五大核心模块：双流特征提取、多特征响应单元、多特征自适应融合、结合模态贡献的跟踪过程评估、主导-辅助动态选择恢复。

1. 多特征响应自适应融合：让每个特征都“物尽其用”

传统方法平等对待各特征，MFDSR则不同。它联合建模RGB和热成像模态的多种特征响应，包括VGG-M的深度特征、HOG/CN手工特征。通过最大化峰值旁瓣比（PSR），实现最优融合。

PSR能衡量特征响应图中“主瓣（目标区域）”与“旁瓣（背景区域）”的强度比。PSR越高，目标定位越准确。该模型不仅能融合多特征响应，还能识别每个特征对目标定位的贡献。这为后续模态可靠性评估提供了依据。

融合模型属于非凸优化问题，研究为此设计了“粒子滤波+内点法”的两阶段优化方案。先用粒子滤波获取初始解，再用内点法迭代优化。这种方式既能避免陷入局部最优，又能以极低时间成本（平均0.04875秒/帧）收敛到高质量解（如图10）。

优化后的融合响应图能显著抑制背景杂乱，突出真实目标（如图4）。相比等权重融合，它在RGBT234、VTUAV等数据集上的精度和成功率均有明显提升。

2. 结合模态贡献的跟踪可靠性评估：更全面的状态判断

仅靠单一模态评估跟踪效果易出错。MFDSR将“特征贡献度”与“模板相似度”结合，计算整体跟踪可靠性。它既考虑当前跟踪结果与高置信度模板的相似度（用HaarPSI计算），又融合自适应融合模型学到的模态整体贡献度。

这种评估方式能精准反映跟踪状态。比如Torabi序列中，初始目标被遮挡导致RGB模板失效，评估结果会自动偏向更可靠的热成像模态。OccCar2序列中，目标遮挡时置信度显著下降，重新出现时则快速回升（如图11）。

3. 主-辅动态选择恢复：短时精修，长时找回

基于跟踪可靠性评估结果，MFDSR能在“短时跟踪”和“长时跟踪”模式间灵活切换：

短时跟踪（可靠性高）：用更可靠的模态精修目标边界框。这能解决相关滤波边界框长宽比固定的问题，减少跟踪漂移；
长时跟踪（跟踪失败）：先通过YOLOv4-tiny生成候选目标。再用置信度约束（结合位置、外观、大小等维度）筛选高置信度候选（如图12）。最后选择PSR响应最大的候选重新捕获目标。

该机制能有效应对目标丢失场景。比如elebike3序列中，目标离开视野后，跟踪器在其重新出现时精准找回。car70序列中，目标被完全遮挡后，方法能避开相似干扰物，快速定位真实目标（如图13）。

三、实验验证：五大基准数据集表现亮眼

研究在GTOT、RGBT234、VOT2019-RGBT、LasHeR、VTUAV五大RGB-T跟踪基准上开展实验，全面验证MFDSR的性能：

1. 核心优势场景

GTOT数据集：PR/SR达到0.911/0.756，在光照变化、尺度变化等挑战下显著优于现有方法；
VTUAV数据集：在动态范围大、分辨率高的开放环境中优势突出。短期跟踪PR/SR达0.773/0.626，长期跟踪达0.530/0.453。SR性能优于MMSTC、BAT等基于ViT-B的先进方法；
VOT2019-RGBT数据集：鲁棒性超越所有对比方法，兼顾跟踪精度与稳定性。