当前位置：首页>自动驾驶>嘉宾视点 | 清华大学李升波:自动驾驶端到端研发至少存在三个挑战

嘉宾视点 | 清华大学李升波:自动驾驶端到端研发至少存在三个挑战

2026-05-13 08:48:41

前言

4月12日，在智能电动汽车发展高层论坛（2026）上，清华大学车辆学院、人工智能学院教授、博导李升波以“如何在智能时代推进具身智能的端到端技术研发”为主题，介绍了人工智能发展态势，总结了自动驾驶行业当前现状和发展趋势，并谈及具身智能的后续挑战。

一、人工智能发展态势

人工智能已从概念阶段全面迈入现实应用，过去十年间，一系列里程碑事件持续推动社会认知不断深化：从2015年ResNet在图像识别任务中超越人类水平，2017年AlphaGo战胜围棋世界排名第一柯洁，到2022年ChatGPT问世，再到2025年初DeepSeek推理模型的重磅推出，这些标志性进展充分表明，人工智能正加速成为新一轮科技革命与产业变革的重要驱动力。

人工智能的发展正由信息空间逐步迈向具身智能，即深度融入物理世界。人类本身就是典型的物理世界智能体，通过眼睛实现环境感知，经由大脑完成决策判断，再通过肢体执行具体动作，并持续地与外部环境交互。如何实现可靠的物理世界交互，是当前研究的关键问题。

从应用形态来看，物理世界交互的研究主要集中在两个方向：一是自动驾驶，二是机器人。二者在感知、决策、控制和训练等核心技术链条上具有较强共性特征。自动驾驶自2015年进入快速发展阶段，目前已形成了清晰的商业化格局。同时，具身智能机器人在近两年持续升温，成为行业关注的热点。从更长周期来看，人工智能将进一步嵌入各类可运动、可交互的实体系统，泛在具身智能有望成为未来人工智能发展的重要趋势。

从技术路线看，端到端训练已成为具身智能的重要范式。无论训练数据来自仿真环境还是真机平台，其核心都是通过大规模数据汇聚与训练，构建端到端神经网络模型。从训练范式看，当前主要包括两类技术路径：一类是模仿学习；另一类是强化学习。

二、自动驾驶行业当前现状和发展趋势

汽车可以视为具身智能最早落地的产品形态，其驾驶过程与人类行为模式具有相似性，需要通过传感器感知周围环境，再由端到端模型完成感知、决策和控制，最终将指令送至车端执行。如何高效训练这类端到端模型，仍然面临诸多显著挑战。

特斯拉是自动驾驶端到端路线的发起者。2024年，特斯拉发布FSDV12，标志着自动驾驶研发正式由传统专家规则驱动转向端到端设计阶段。其训练路径具有两个典型特征，一是依赖大规模量产车开展数据闭环；二是依赖超大算力云平台完成训练、更新和迭代。对于国内企业而言，如何在数据、算力与模型路线的多重约束下推进端到端乃至VLA（自动驾驶大模型）相关研发工作，仍是需要系统思考并解答的问题。

进一步分析来看，当前国内自动驾驶端到端研发领域至少存在三方面挑战。

第一，训练数据规模与质量能否与特斯拉相匹配，因为数据规模直接决定了模型性能的基本边界；第二，现有算力是否能够支撑亿级参数规模模型的高效训练；第三，训练算法、框架是否成熟，尤其是能否突破单一监督学习路径的局限，并持续扩展新的训练方向。这些问题既是技术层面的关键判断，也是产业落地过程中必须面对的现实约束。

对于高校而言，我们也在持续思考这些问题。概括来看，目前主要形成两点判断：

第一，应通过仿真技术实现更大规模的数据生成，不能完全依赖车端或者大规模量产车采集的方式来解决数据匮乏难题。随着相关技术发展，世界模型等方法正在成为仿真能力的重要延伸；

第二，要更加重视高效算法的研发与应用，DeepSeek的进展带来了一个重要启发，即在更高性能算法的支撑下，可以显著降低对传统数据规模与算力扩张路径的过度依赖。因此，设计更高效的训练算法也是高校的一项重要任务。

三、具身智能的后续挑战

近期诸多自动驾驶领域从业者投身具身智能研究，我们发现，机器人具身智能与自动驾驶具身智能的技术栈高度相似。汽车可视为具身智能的初级形态，其自由度较低，应用场景规范，交互对象也相对有限。

而进入机器人领域，无论是工业制造、家居服务还是商业服务场景，其自由度均大幅提升，从双足、轮式到双臂式机器人，其自由度远高于汽车；场景结构也更为复杂，交互对象更是覆盖视觉范围内的所有对象，这导致具身智能问题的解决难度大幅增加。我们始终认为，端到端训练是攻克机器人具身智能模型的核心路径，但二者之间存在本质性的难度差距。

从数据规模看，自动驾驶领域约1亿片段数据可达到模型训练的入门门槛，模型规模达到1B、10B参数量基本能实现智驾功能；若以自动驾驶的训练复杂度为基准，具身机器人领域的训练难度更高。

当前，行业普遍低估了具身机器人的训练难度。具身机器人的交互数据片段规模需达到十亿甚至百亿级别，神经网络参数量的入门基准约为100B；无论从监督学习还是强化学习角度，其训练难度相较自动驾驶均有约5-10倍的提升，这也是二者的核心差异所在。

总体来看，未来是人工智能大发展、大有可为的时代。当前信息智能领域的人工智能模型已完成核心研发，以豆包、ChatGPT等代表性产品已落地应用，我们预判这一时代将于2028年左右步入成熟阶段。物理智能领域则刚刚兴起，未来10至15年，该领域将涌现大量新技术、新方法与新企业。从更长远来看，机器与人的深度融合将成为发展趋势，我们将其定义为“生物智能”，量子计算、人造生命等前沿方向或将在此阶段实现突破，这一发展进程预计需要15至20年甚至更久的时间。

基于李升波教授关于人工智能对科技革命和产业变革的分析，人工智能的发展将深刻影响汽车智能化的演进。2026年，车百智库推出重点项目《AI革命对汽车产业的影响跟踪、分析与对策》，并组织开展《聚合智能产业若干重点问题研究》。欢迎添加车百智库客服微信，了解项目研究详情。