
「智驾圈最关心的快问快答」
自动驾驶的终局是端到端还是 VLA?
纯视觉方案能否应对所有复杂路况?
从底层技术预研到商业化量产落地,智驾行业正面临哪些真实的挑战?
.......
近期,我们系统收集了智能驾驶领域大家好奇且重点关注的算法演进、硬件选型、仿真测试以及职业发展等方向的核心问题,并汇总了多位深耕行业一线的技术专家与产品大咖给出的深度解答。今天,我们将这些来自工业界与学术界的前沿对话整理成文,与各位读者一起分享。
刘振亚
交远知行(WeRide)工程副总裁国内自动驾驶行业骨灰级玩家,十多年自动驾驶从业经验,熟悉涵盖Robotaxi、Robobus、L2+等各个业务线。


Q:现阶段智能驾驶超越人类水平了吗?
A:还是分场景的,比人类的平均值要好,但是跟专注的人类比起来还要多努力。
Q:智驾驾驶中,视觉和激光雷达数据是怎么融合的?
A:在各自提取 feature 之后融合。
Q:早期听过 momenta 和地平线一起出现,但现在主营业务不是智驾算法了吗?
A:辅助驾驶主要提供解决方案,同步 robotaxi 提供落地产品。
Q:想问一下关于智驾当中的数据飞轮是怎么思考的?冷启动阶段怎么办?数据闭环难在什么地方?
A:数据在现在的算法迭代中非常重要。文远用了大量 L4 的数据做了冷启动,整个数据质量和一致性都比较的好。
Q:老师您觉得车路融合前景怎么样?现在做感知算法是不是没有意义了?
A:目前 L4 的技术还是主力单车智能。车路协同的直接应用不多,算锦上添花,不是雪中送炭。
Q: 目前自动驾驶领域GPU用国产吗?
A:目前主要上车用高通和英伟达,国产的方案在预研。
Q:Robotaxi 相对传统出租车最大优势在哪里?有没有成本优势?
A:安全,舒适,不拒载,司机水平很一致,车子还挺干净。
夏中谱
具备十五年自动驾驶研究经历。负责了百度预测和规划、理想端到端研发和量产。现在在中科院自动化所研究VLA和世界模型。自动驾驶前沿技术专家,深入探讨端到端、VLA 与仿真技术。


Q:现在市面上的两段式端到端一般分为几类?
A:主流方法有三种:1. 一段式端到端,感知结构化输出,规划使用结构化信息出轨迹,像华为的 GOD+PDP,优势在于仿真容易。
Q:理想小鹏的 VLA 路线,和华为不搞 VLA 搞 WEWA 的路线,请问如何评价?
A:之前端到端视屏输入轨迹输出,可以认为是个 VA 模型。VLA 相当于是把 LLM 模型能力引入到 VA 模型中,LLM 模型优势在于模型参数量和海量互联网数据,具备 zero/few-shot 能力。但其主要学习的是语言数据,语言只是个宏观概念,很难对物理空间建模,如何让 VLM 具备空间理解能力也是当前研究热点。WM 也不一样,直接在 VA 模型基础增加其他模态和数据,学习物理空间和运行规律,相对而言是个难度更大但更本质的方向。
Q:想问一下商学院的学生想研究智驾,有什么系统学习的课程推荐嘛?
A:现在自动驾驶教程都偏向于技术,不知道是否满足需要。Udacity 和 Apollo 上都有自动驾驶入门教程,偏规则的,不过对了解自动驾驶运行原理会更容易些。
Q:想从传统 PNC 转端到端,可以只做两段式端到端的规控模型吗?
A:是的,两段式端到端可以从预测开始。比较经典的有 vector net 和 QCNet,数据集也比较全,可以做一些工作。
Q:强化学习 rollout 时需要闭环(带传感器仿真),但传感器仿真目前不成熟,是否有办法绕过仿真做?
A:强化学习分开环和闭环强化,如果开环的话可以不用仿真器。另外闭环现在已经有场景重建的方法,比如 3DGS。
Q:自驾仿真领域哪些技术路线比较好啊?
A:目前自动驾驶在往一段式端到端、VLA 方向发展,后续对仿真也是传感器和物理世界级别仿真,可以考虑重建和生成两个方向,目前重建是可以落地的。
Q:如果有足够丰富且准确标注的数据,足够多的算力,能否做到 L5?
A:如果只是单纯模仿人类,是无法超越人类。L5 的普及必然是需要超越人类驾驶员的,需要自动驾驶系统更强的物理世界交互能力,可以多关注世界模型和强化学习。
Q:夏老师怎么看小鹏跟随特斯拉彻底转纯视觉这件事?以及新势力出海的前景?
A:纯视觉是商业上降本方案。目前国内智驾百花齐放,相比国外是技术整体领先,出海是必然的。
Q:VLA 和世界模型你觉得哪个才是自动驾驶最终的路线?
A:说不定会走到一起哟。VLA 侧重的是 language 能力,WM 侧重的是物理世界理解。language 主要是探索和人类用户打交道,WM 主要和物理世界打交道,无人驾驶时代到时都需要。
Q:自动驾驶和具身智能的发展前景大概是什么样子呀?应该去卷哪个?
A:这个得看自己未来的规划。相对而言,自动驾驶技术逐步成熟,商业化应该很快了,可能会带来一个类似 00 年互联网变革。而机器人还在探索早期,还得经历一些波折。
Q:怎么看待自动驾驶下一步的发展路线?
A:language 能力加入可以让系统更好和人类司机交互,worldmodel 能力加入可以让系统更好与物理世界交互,这也是现在的 VLA 和 WM 方案,各有各的目标。如果从生物进化史看,物理世界交互对决策和规划更重要,毕竟会决策规划生物很多,会语言的就只有人类。
徐工
曾任比亚迪智能驾驶/自动驾驶产品总监,负责智驾产品规划、产品定义、体验设计。也曾任小鹏自动驾驶产品专家/行车产品负责人,阿里巴巴智能座舱AI产品专家。14年「软件+硬件+Al」产品管理经验。


Q:做过券商智驾方向的行研实习,投递智驾产品运营岗位,作为产品经理您会通过我这种背景的简历吗(初筛)?
A:我自己的岗位设计里不太会单独设智驾产品运营。一是我需要团队的产品经理每个人都能端到端闭环,能定义产品形态、产品逻辑、体验设计,也能知道如何把你的产品传播给用户,也需要知道自己产品的核心关键指标是什么,如何设计埋点等数据反馈机制,以及设计你自己产品评价体系、评测集。总之,产品经理要“吃自己的狗粮”。
Q:智驾四年经验,直接去具身智能感觉跨度太大,推荐转行还是智驾大模型继续干呀?
A:如果在智驾能接触到最重要的技术部分我认为可以继续在智驾。但对于大厂&创业公司,我现在这个阶段,对大厂有一些祛魅了,会优先选择创业公司。
Q:自动驾驶 PNC 转 Robotaxi 产品,有什么学习方向和未来如何发展呢?
A:Robotaxi 产品经理主要还是围绕整个上车前、中、后的用户体验设计。包括打车前体验、上车后如何建立信任、对标人类网约车你会跟司机提什么需求,以及问题应急和离车后的体验。
Q:将来车端部署大算力(类似双 Thor 或者 4 Orin X)是趋势吗?还是模型会精简,小算力就够了?
A:单 Orin 或 J6P,我认为只能包括产品可用,上限不高。如果要说自动驾驶,算力再往上提肯定是趋势。Thor*2 不是终点~
Q:智能驾驶的产品经理是否更偏重技术出身?非技术出身应该怎么发展?
A:产品经理我并不认为一定需要做过技术,或者学技术的。我自己就不是,我团队很多也不是。但产品经理需要理解技术的基础原理,有一定的知识储备,不需要你会敲代码,我自己也会看论文。
Q:怎么看待 XP 的新模型?
A:叫VLA,实际不是VLA,纯正特斯拉路线,vision+language+audio+navi+routing -> action。
陈龙
小米汽车自动驾驶Principal Scientist,自动驾驶与具身智能领域专家,聚焦多模态与端到端算法


Q:VLA 到底有没有用?
A:终局肯定是 VLA,端到端只能解决基本的驾驶能力。道路是为人设计的,有很多需要基于认知推理的场景,所以让车更像人一样思考,是通往高阶自动驾驶的关键。
Q:现在业界领先端到端能解决多少百分比的问题,上了 VLM 和 VLA 又能把上限提升多少呢?
A:个人认为 90% 吧。特斯拉把端到端做到极致了,安全性已经基本上能保证,剩下的大部分问题(比如 lane issue)都是需要 VLA 去解决的。
Q:陈老师目前做具身更多还是智驾更多呀?
A:智驾偏落地,具身偏预研。
Q:小米后面上 VLA 还是世界模型?
A:现在趋势是轻图,但肯定会以某种形式长期存在来作为模型的先验,就像人一样如果有精细的道路级导航开车会轻松很多。
Q:相机和激光雷达是特征融合吗?
A:现在主流还是单独的 encoder,然后特征融合。理论上前融合更好,但是需要很大规模的预训练。
Q:做具身长期的个人竞争力是什么呢?多模态想转具身技能壁垒有多高?
A:现在具身领域 VLA 很火,大模型转具身还是比较容易的。真正有竞争力的话还是需要更大的 scale,更多创新,真机夸本体泛化等等。
Q:有没有可能模型不能学明白泛化场景的决策,遇到问题靠堆数据是否只是永远不可能实现的幻想?
A:现在端到端确实有很多你说的问题,拟合人驾轨迹大部分学习到的是 correlation 而不是 causality。但我还是相信端到端能够解决自动驾驶问题的。WM 和 VLA 的出现能解决一些关键问题。
Q:华为智驾在拥堵时能自主想办法加塞,VLA 模型在这一块能力上会有提升吗?
A:算力上去后 VLA 理论上是可以帮助这些博弈场景的。
Q:ROS2 下做 SLAM 有产品应用价值吗?现阶段学习这个框架方向会不会有问题?
A:ROS 加 SLAM 可能是做一个实机 demo 最快的方式,框架都是模块化的肯定没有问题。如果想做深入,肯定要涉及到 SLAM 算法底层的东西。
Q:现在 simulation 应该是用什么好?GS 行不行,Video model 会不会太慢?
A:GS 在一些场景重建的好的话还是可以复现原始行为的,用来闭环评测端到端的话还是主流。Video model 也没有很慢,主要是要解决 consistency 的问题。
Q:别的方向硕士想找自动驾驶和机器人工作需要了解哪些技术栈?有必要读个 PhD 吗?
A:想要进入自驾和机器人领域,最好掌握些大模型的知识和真机调试经验,以后 VLA 肯定是主流。如果领域差别太大,读个 PhD 时间成本有点高。
Q:对 AI Infra 的预期和建设目标是什么呢?更希望招社招人还是校招人?
A:研发部门的话更侧重优化模型结构,数据/标注 pipeline。我们偏向预研部门,可能会预研阶段过后会依赖量产团队的 AI infra 团队来做优化和部署。
Q:人形机器人的“像”(身体协调及美感)人和“做”(实用功能及效益)人哪个发展会最快及更重要?
A:短期内实用功能的发展会快于身体协调美感。并且从价值角度看“做”也远比“像”更重要,因为功能和效益是机器人商业化的核心。
Q:假如出车祸了,如何划定是工程事故还是驾驶员责任?
A:看自动驾驶的级别,目前普遍的 L2 辅助驾驶,责任主体是人。等明年 L3 级别的自动驾驶,责任主体就会在有限的情况下迁移到车。
Q:请问 NeRF 现在适合工业场景嘛?
A:NeRF/3DGS 学术效果很惊艳,工业场景也有一些应用比如自驾仿真,AR/VR 等等,但都还有些需要解决的问题比如效率,算力,动态物体等等。
Q:VLA 和端到端的本质区别是什么?语言是必须的吗?怎么看待 4D 成像毫米波雷达?
A:1. VLA 也是端到端,只是可以利用语言模态推理从而降熵增加确定性。2. 语言是必须的。3. 4D 毫米波雷达是一个纯视觉很好的冗余。
Q:自动驾驶是科学问题还是工程问题?
A:Mixed 吧。模仿学习还是有上限的,真正学会像人一样开车还需要学习到闭环反馈控制能力和像人一样思考的能力。这就需要 WM+RL 和 VLA 的探索啦!
Q:目前 VLA 方案中您更倾向于使用 BEV feature 还是直接把图像 token 给到 language model?
A:直接用预训练的 VLM 是泛化性最好的。BEV feature 融合可以增加空间理解能力,但会一定程度上伤害通用能力。
王乃岩
小米汽车自动驾驶杰出科学家,有近10年的自动驾驶研发经验,此前在图森中国负责过自动驾驶重卡的研发。


Q:国内厂商开始跟进纯视觉,自动驾驶对相机成像还有哪些要求呢?
A:机器视觉对于成像的需求永远是不要在传感器端损失信息。低帧率损失时间维度信息,SDR 损失亮度维度信息,后两种可能更重要。
Q:怎么看待 Tesla 选择的纯视觉方案,雷达信息和视觉信息冲突的话,一般会如何处理?
A:融合的目的不是二选一,而是保留所有观测的信息,并把不确定性传递给下游。所以如果能确认冲突了,反而是好事,说明这个目标的状态异常,更需要防御性处理。
Q:对于自驾来说 simulator 重要嘛?3DGS-based 逼真成像的 simulator 必要嘛?
A:Simulator 有两种用处,一个是验证,一个是训练。验证是无论如何都重要。Realistic simulation 当然有价值,但是个人认为现在 3DGS based 方法并不够 scalable。
Q:算力芯片的算力处理信息是人的万亿倍,为何算法还是做不出接近人的自动驾驶?
A:首先你遗传进化了千万年,pretrain 了无数的数据。其次自从你出生之后的每一时刻,你都从这个世界得到了物理世界的监督信号和反馈。有了这些,开车只是 post training 中的一个小任务而已。
Q:认为 L2 和 L4 真的有壁吗?除了成本外还有什么是 L2 无法跨越的?
A:核心在于对于可靠性和体验连续性的需求有多高。严格意义上的 L4 是要接近甚至超越人的可靠性的。技术角度来说,我也并不认为是趋同的,核心逻辑在于冗余和可靠性如何实现。
Q:重卡自动驾驶逻辑跟家用车逻辑有什么大区分吗?自动驾驶前景是100%端到端吗?
A:车重车长很多,运动能力受限很多,所以在感知和规划控制都有一些和乘用车不同的需求。尽量用好海量的数据模型化一定是趋势,端只是一种手段。
来源:




· 计划周期:深蓝学院将以3个月为一个周期,建立工程师&学术研究者的「同好社群」
· 覆盖方向:自动驾驶、具身智能(人形、四足、轮式、机械臂)、视觉、无人机、大模型、医学人工智能……16个热门领域
扫码添加阿蓝
选择想要加入的交流群即可
(按照提交顺序邀请,请尽早选择)
👇
