清华团队破解自动驾驶视觉注意力难题,竟无需依赖大模型预训练?
2月21日,清华大学智能产业研究院(AIR)团队在国际权威期刊《npj Artificial Intelligence》发表题为《驾驶任务中的人类与算法视觉注意力》的研究成果。该研究首次采用“人类眼动追踪实验+算法对比验证”的双轨设计,系统剖析人类与算法视觉注意力的底层逻辑差异,为自动驾驶算法优化提供了非规模化的全新路径,对突破行业安全瓶颈、推动技术落地具有重要现实意义。本文将深入解读该研究的核心内容、技术突破与应用价值。自动驾驶作为汽车产业与科技领域的核心发展方向,应用场景持续拓宽,但商业化落地进程始终受核心安全瓶颈的制约,未能实现大规模普及。真实道路中的复杂路况的对自动驾驶算法的决策准确性与实时性提出极高要求,现有算法在突发场景中常出现决策延迟、判断偏差等问题,难以达到人类驾驶员的灵活应对水平,严重制约技术向完全自主驾驶阶段跨越。为精准厘清人类与算法视觉注意力的本质差异,破解当前自动驾驶算法的语义理解困境,清华AIR团队设计了创新性双轨实验方案,构建了科学严谨、可复现的对比研究体系。人类眼动追踪实验环节,团队招募18名专家驾驶员与18名新手驾驶员参与测试,两类群体形成鲜明对照,为研究提供了覆盖不同驾驶经验水平的多元样本支撑。所有受试者需完成危险检测、可用性识别、异常检测三类典型驾驶任务,实验采用高精度眼动追踪设备,实时记录受试者的视线转移轨迹、注视时长等核心数据,最终构建出精准的人类驾驶注意力分配图谱。算法对比验证环节,团队选取AxANet、UniAD等主流自动驾驶算法,以及DriveLM视觉语言模型作为研究对象,将人类注意力特征融入上述模型开展对照实验,通过对比优化前后算法在目标识别、决策响应等核心指标的表现,为后续差异分析提供了坚实的数据支撑。过往自动驾驶算法研究多聚焦于空间定位能力的优化,虽能改善算法的基础感知性能,但未能触及自动驾驶决策的核心痛点,无法从根本上提升复杂场景应对能力。本研究通过严谨实验证实,人类与算法的注意力差异,核心不在于目标定位能力的强弱,而在于对目标语义优先级的理解与分配能力:人类可快速划定高危元素为高语义优先级,同时弱化无关信息的干扰;而算法缺乏该核心能力,对所有视觉元素均衡分配注意力,导致复杂场景下决策效率与准确性显著下降,这一发现为自动驾驶算法优化提供了全新研究视角。清华AIR团队提出的人类驾驶注意力三阶段量化划分框架,是本次研究的核心技术突破,该框架不仅为解析人类驾驶认知机制提供了可量化、可落地的理论模型,也为自动驾驶算法的阶段化优化奠定了坚实基础。初始注意力阶段是人类驾驶注意力的启动环节,驾驶员基于视觉本能与长期积累的驾驶经验,对车辆周边环境进行快速扫描,核心目的是捕捉潜在危险与关键安全信息,该过程无需深度认知加工,具有快速响应的特点。眼动追踪数据显示,此阶段驾驶员视线平均每秒转移3-5次,单次注视时长仅为100-150毫秒,这种快速扫视模式可确保驾驶员在短时间内完成周边环境的全方位排查,避免关键安全信息遗漏。作为人类驾驶注意力的核心环节,深度分析阶段中,驾驶员会调动自身驾驶经验与生活常识,对初始阶段识别的信息进行语义层面的深度评估,精准判断各类信息对驾驶安全的影响程度,这也是人类驾驶认知相较于算法的核心优势所在。实验数据统计显示,专家驾驶员在该阶段的平均持续时长为705.75毫秒,新手驾驶员则为622.52毫秒,这一差异清晰表明,驾驶经验的积累能显著提升语义评估的效率与准确性。决策执行阶段是人类驾驶注意力流程的收尾环节,驾驶员基于深度分析阶段的评估结果,快速执行刹车、避让、变道等具体驾驶决策,形成“扫描-分析-决策”的完整闭环,保障驾驶任务安全高效完成。该量化框架明确了人类注意力分配、认知加工与决策形成的内在规律,为自动驾驶算法优化提供了清晰的阶段化方向,算法开发者可针对性优化算法的感知、分析与决策模块,逐步提升算法的复杂场景应对能力。算法的致命短板 —— 缺失 “语义显著性提取能力”清华AIR团队通过实验分析得出核心结论:当前自动驾驶算法在空间定位、目标识别等基础任务中已达到较高水平,但存在一项致命短板——缺乏“语义显著性提取能力”,这也是制约其复杂场景适配性的核心瓶颈。人类可通过自身认知机制与长期驾驶经验,为驾驶场景中的各类目标赋予明确的语义优先级,实现注意力的动态合理分配,这是人类应对复杂驾驶场景的核心优势;而算法仅能识别目标的位置、速度等物理参数,无法判断其语义优先级,只能依赖训练数据进行机械匹配,易出现注意力分配失衡问题,这也是算法“语义鸿沟”的核心成因。针对自动驾驶算法的语义理解短板,清华AIR团队提出了一种经济高效的优化方案,无需依赖大规模预训练,即可有效填补算法“语义鸿沟”与大模型“接地鸿沟”,大幅提升算法的复杂场景适配能力。解决方案:提取 “检查阶段” 语义注意力,赋能算法团队研究发现,人类驾驶深度分析阶段(又称“检查阶段”)蕴含丰富的语义注意力信息,可有效弥补算法的语义理解缺陷,据此提出核心优化路径:精准提取该阶段的语义注意力特征,将其融入现有自动驾驶算法与视觉语言模型。为实现这一优化目标,团队设计了双阶段伪注意力生成方案,仅需5名驾驶员的眼动数据即可完成算法优化,相较于传统大规模预训练方法,大幅降低了数据获取成本与计算资源消耗,兼具经济性与高效性,便于产业落地应用。实测效果:准确率提升 + 误差降低,适配车载实时系统实测数据验证显示,融入人类语义注意力特征后,自动驾驶算法的异常检测准确率从0.724提升至0.736,轨迹规划误差降低11.1%(从0.72米降至0.62米),核心性能指标得到显著优化。尤为关键的是,该优化方案对算力与存储资源的需求较低,可完美适配车载实时系统的硬件限制,为方案的商业化落地提供了重要支撑,推动自动驾驶技术从实验室研发走向真实道路应用。本研究的短期应用价值显著,其打破了“大模型+大规模预训练”的单一算法优化模式,通过融入人类语义注意力特征,仅需少量眼动数据即可实现算法性能提升,有效降低了算法优化的成本、缩短了技术迭代周期。该方案可帮助车企快速提升自动驾驶系统的复杂场景应对能力,增强消费者对智驾技术的信任度,同时推动自动驾驶技术向中低端车型普及,加速整个产业的商业化落地进程。本研究的价值远超自动驾驶单一领域,为整个人工智能算法的认知升级提供了重要借鉴。其“人类认知机制赋能AI算法”的核心理念可广泛迁移至机器人、智能监控、智能家居等多个AI应用领域,为解决通用人工智能发展中的“认知鸿沟”提供了切实可行的思路与路径。例如,在机器人领域,借鉴该模式可提升机器人的语义理解与决策能力,使其更好地适配家庭照料、工业装配等复杂任务;在智能监控领域,可优化系统的异常识别效率与准确性,该理念将推动通用AI向更智能、更人性化的方向发展。清华AIR团队的本次研究,通过创新性双轨实验量化了人类驾驶注意力的三阶段特征,精准定位了当前自动驾驶算法的语义短板,提出了低成本、高效可行的优化方案,打破了传统算法优化模式,为自动驾驶算法升级开辟了全新路径。综上,自动驾驶的终极发展形态并非算法完全替代人类,而是人机注意力机制的深度协同——结合人类驾驶员的经验优势、语义理解能力与算法的计算优势、实时处理能力,实现驾驶安全与出行效率的双重提升,推动智能出行体验迈向新高度。