在自动驾驶、智能监控等关键场景中,RGB-T(可见光-热成像)目标跟踪是核心技术之一。复杂环境下,光照突变、遮挡、温度干扰等问题始终存在。这些问题让模态信息的有效利用成为难题——RGB模态可能因光照不足失效,热成像模态也并非永远可靠,模态间的主导关系时刻动态变化。
近期,一篇发表于TCSVT 2026的研究《Robust RGB-T Tracking via Multi-Feature Response Adaptive Fusion and Dynamic Selection Recovery》提出了全新的MFDSR跟踪器。该跟踪器从多特征融合、跟踪评估、动态恢复三个维度破解这一痛点。在五大主流RGB-T跟踪基准上,MFDSR展现出极具竞争力的性能。
论文信息
题目:Robust RGB-T Tracking via Multi-Feature Response Adaptive Fusion and Dynamic Selection Recovery
基于多特征响应自适应融合与动态选择恢复的鲁棒RGB-T跟踪
作者:Jun Liu, Wei Ke, Hao Sheng
一、核心痛点:模态信息的动态失衡
开放环境中的目标跟踪面临诸多挑战。光照变化让RGB特征时清时糊,地面热辐射可能湮没行人的热特征,遮挡又会让两种模态同时失效(如图1)。
图1现有方法的不足同样明显:
- 决策级融合仅关注网络最后一层输出,忽略多特征响应间的相关性;
- 跟踪可靠性评估仅依赖单一模态,未考虑模态贡献的动态变化;
- 缺乏针对跟踪失败的有效恢复机制,难以应对长时跟踪场景。
二、MFDSR整体框架:多模块协同解决核心问题
MFDSR的核心思路是挖掘多特征相关性、动态评估跟踪状态、灵活恢复目标。整体流程如图2所示,主要包含五大核心模块:双流特征提取、多特征响应单元、多特征自适应融合、结合模态贡献的跟踪过程评估、主导-辅助动态选择恢复。
图21. 多特征响应自适应融合:让每个特征都“物尽其用”
传统方法平等对待各特征,MFDSR则不同。它联合建模RGB和热成像模态的多种特征响应,包括VGG-M的深度特征、HOG/CN手工特征。通过最大化峰值旁瓣比(PSR),实现最优融合。
PSR能衡量特征响应图中“主瓣(目标区域)”与“旁瓣(背景区域)”的强度比。PSR越高,目标定位越准确。该模型不仅能融合多特征响应,还能识别每个特征对目标定位的贡献。这为后续模态可靠性评估提供了依据。
融合模型属于非凸优化问题,研究为此设计了“粒子滤波+内点法”的两阶段优化方案。先用粒子滤波获取初始解,再用内点法迭代优化。这种方式既能避免陷入局部最优,又能以极低时间成本(平均0.04875秒/帧)收敛到高质量解(如图10)。
图10优化后的融合响应图能显著抑制背景杂乱,突出真实目标(如图4)。相比等权重融合,它在RGBT234、VTUAV等数据集上的精度和成功率均有明显提升。
图42. 结合模态贡献的跟踪可靠性评估:更全面的状态判断
仅靠单一模态评估跟踪效果易出错。MFDSR将“特征贡献度”与“模板相似度”结合,计算整体跟踪可靠性。它既考虑当前跟踪结果与高置信度模板的相似度(用HaarPSI计算),又融合自适应融合模型学到的模态整体贡献度。
这种评估方式能精准反映跟踪状态。比如Torabi序列中,初始目标被遮挡导致RGB模板失效,评估结果会自动偏向更可靠的热成像模态。OccCar2序列中,目标遮挡时置信度显著下降,重新出现时则快速回升(如图11)。
图113. 主-辅动态选择恢复:短时精修,长时找回
基于跟踪可靠性评估结果,MFDSR能在“短时跟踪”和“长时跟踪”模式间灵活切换:
- 短时跟踪(可靠性高):用更可靠的模态精修目标边界框。这能解决相关滤波边界框长宽比固定的问题,减少跟踪漂移;
- 长时跟踪(跟踪失败):先通过YOLOv4-tiny生成候选目标。再用置信度约束(结合位置、外观、大小等维度)筛选高置信度候选(如图12)。最后选择PSR响应最大的候选重新捕获目标。
图12该机制能有效应对目标丢失场景。比如elebike3序列中,目标离开视野后,跟踪器在其重新出现时精准找回。car70序列中,目标被完全遮挡后,方法能避开相似干扰物,快速定位真实目标(如图13)。
图13三、实验验证:五大基准数据集表现亮眼
研究在GTOT、RGBT234、VOT2019-RGBT、LasHeR、VTUAV五大RGB-T跟踪基准上开展实验,全面验证MFDSR的性能:
1. 核心优势场景
- GTOT数据集:PR/SR达到0.911/0.756,在光照变化、尺度变化等挑战下显著优于现有方法;
- VTUAV数据集:在动态范围大、分辨率高的开放环境中优势突出。短期跟踪PR/SR达0.773/0.626,长期跟踪达0.530/0.453。SR性能优于MMSTC、BAT等基于ViT-B的先进方法;
- VOT2019-RGBT数据集:鲁棒性超越所有对比方法,兼顾跟踪精度与稳定性。
2. 消融实验验证模块有效性
- 多特征融合权重动态适配场景。比如低光照下的行人序列中,模型自动偏向热成像模态。被玻璃遮挡的笔记本电脑序列中,模型优先依赖RGB模态(如图6);

- 尺度估计模块:基于模态可靠性选择高质量模态细化边界框,性能较单一模态提升0.6%/0.3%;
- 多特征响应融合:相比传统决策级融合,PR/SR提升1.2%/1.4%,验证了挖掘特征相关性的价值。
四、总结与展望
MFDSR的核心创新体现在三个维度:
- 多特征响应自适应融合,充分挖掘模态内/模态间的特征相关性;
- 主-辅动态恢复机制,兼顾短时跟踪精度与长时跟踪鲁棒性。
尽管在基于ViT-B骨干网络的方法面前,MFDSR因采用VGG-M存在一定性能差距。但它无需额外离线训练,仅用预训练模型就能在复杂场景中展现出强鲁棒性。这为RGB-T跟踪提供了轻量化、高效的解决方案。
未来,将更强大的骨干网络与MFDSR的融合、评估、恢复机制结合,或将进一步突破RGB-T跟踪的性能上限。这也将推动该技术在自动驾驶、智能监控等实际场景中的落地应用。