陈晓智:大家下午好!我是来自卓驭科技的AI技术负责人陈晓智,非常高兴有机会与大家探讨智能驾驶技术未来的发展趋势以及分享一下卓驭科技在这方面的近期进展。
第一部分,当前智能驾驶技术发展到哪一步了?以及未来演进的趋势是怎样的?
在介绍趋势之前,首先和大家澄清一些常见的技术名词,我们听到很多名词,如端到端、大模型,有很多词语,但是当我们说这些词语的时候其背后的含义或者理解不完全一样,所以有必要先和大家拉齐对常见技术词汇的理解。
首先最常说的词语是“数据驱动”,或者是“模型”,它的含义很简单,在当前这个阶段特指机器学习的模型,或者是深度学习的算法,它通过大量的数据训练的算法架构就可以称之为“数据驱动”。很多人认为它是不是只有模型,不需要手写代码了?这也是一个歧义,我们认为数据驱动不代表只有模型,还可以与其他的一些技术方式做一些结合,比如说梳理建模的方法等等。
第二个名词就是“大模型”,这个大家听到最多,大模型从学术角度的严谨定义是指参数规模非常大的模型,通常超过10亿参数量的模型,并且具备涌现智能的能力,才叫大模型,比如说ChatGPT,它具备涌现能力才称之为大模型。
第三个名词是“端到端”,大模型和端到端是不同的含义,虽然我们说端到端会连带说大模型,但是其实它是不同的行业,因为端到端也可以是小模型、中模型,不一定是大模型。“端到端”是什么含义?端到端是指我们用一个模型来统一整个智驾的算法技术站,其强调的就是端到端的去优化整个算法架构。目前业界最常用的算法架构就是把感知和规划串联起来,来实现端到端的训练,它中间还会保持可解释的输出,也会叫可解释的端到端。还有一些其他的实现方式,比如说视觉语言工作模型(VLA)或者是世界模型(World Model),他们也是端到端的实现方式,但是相对可解释端到端来说它可能国家黑盒一点。还有另外一种端到端的实现形式叫做“两段式”的端到端,两段式的端到端是指把感知和规划两个部分用两个模型来实现,两者是解耦的架构,相对传统的模块化方案也有比较好的提升。
解释完以上名词以后,目前智能驾驶技术发展趋势是怎样的?这是我们卓驭算法架构演进的图,也代表了行业中比较典型的技术发展趋势。2022年,无论是卓驭还是行业最常见的方案还是模块化的方案,模块化是指感知当中还是会有很多小模型,可能有20个,每个模型实现不同的任务,比如说车辆检测有一个模型、车道线有一个模型,红绿灯又有一个模型,可能有很多模型,这种模块化架构是比较常见的。它的下游跟踪、融合、预测、决策、规划等等,一般就是用传统的方案,不太是数据驱动的做法。到2023年,升级为一个多任务联合架构,什么意思?我们感知这边没有那么多的小模型了,可能只有6—7个模型,最关键的是有BV模型把关键的感知任务联合起来,比如说物体检测、车道线检测,一些关键模型用统一的模型联合起来。模型少了,实际上它的性能也可以得到促进和提升。下游预测和规划也引入了数据驱动的做法,2023年也出现了这样的趋势。到2024年,比较主流的做法就是二段式端到端,刚才已经解释了,就是感知变成了大模型,也就是三网合一或者多网合一,在规划端有一个模型负责预测、决策、规划,是这样一个一体的模型,这叫做二段式端到端,这种做法比多任务联合架构又有了一个提升,可以让驾驶体验更加拟人。再往后也是卓驭重点研发即将量产的架构,就是可解释的一段式的端到端,这样一个方案我们认为会是明年到后年在行业当中或者在产品当中消费者能够体验到的主流的方案。移动式的端到端进一步把感知、规划端的模型合并成一个模型,让规划的目标去牵引感知模块的优化和训练。
再往后,未来终极方案是什么?我们猜测,我们认为会出现多模态的世界模型,什么意思?多模态世界模型可以认为是端到端的方案,输出控制信号,但是世界模型怎么实现?无论是学术界还是业界都还在探索中,并没有形成一个共同的认知,比如说这个架构方案应该怎么设计、怎么实现,从落地角度我们认为还有一段比较长的路要走。但是我们对于这样一个模型的特性是有必要明确其认知的,我们希望这个模型具备真正的涌现能力,对于训练自己没有见过的场景也具有很强的、很智能的交互推理能力,真正具备和三维空间物理世界的交互能力,不是单纯的靠堆数据覆盖很多长尾场景。当作到世界模型的时候,我们认为它就能够解决体验的问题,同时也解决哪里都能开的问题。
说完发展趋势,我们还是要看端到端从今年到未来两年的趋势,把端到端量产上车有多大的研发的难度?很多人说端到端很困难,需要大量的数据或者算力,我们这边可以探讨一下。
(PPT图示)先看一些视频,这里都是V12的视频,因为他们是最早把端到端上车的方案,我们在网络上也可以看到很多视频,可以发现上了V12以后,性能体验有了非常大的提升,但是也可以看到它也会有一些犯傻的情况,在一些人类看起来比较简单的场景也可能做出比较傻的行为。所以,我们要客观的认识端到端还是处在比较早期的阶段。用一个不太准确的比喻,现在端到端从人工规则发展到端到端的过渡的阶段,类似于火车从蒸汽时代迈入电力时代,或者飞机从螺旋桨驱动的时代迈入喷气式飞机的时代。我们认为从实现L4的角度来看,当前的端到端还是有比较远的距离去实现真正的满足L4需求的端到端或者极致的端到端的架构。
端到端的量产以及持续迭代有什么技术难点?还是那几个维度:算法、算力、数据、传感器。
“算法”中的挑战,端到端确实把体验的上限拉高了,变得很好,同时还有一个挑战,就是怎么保证安全的底线,不要犯傻,甚至出现安全的行为。卓驭的思考是,从算法架构有两个明显的特点:第一,有双目增强的架构,通过双目可以极大地提升端到端模型的安全性;第二,安全推理框架和端到端结合,不是说只有一个模型就没有其他代码了,我们通过安全推理的框架来保证模型输出的轨迹,满足安全性以及交规的要求。除了算法本身,研发的流程体系、测试验证体系,对于保证产品本身质量也是非常关键的,卓驭通过过往大量量产的经验,已经建设了比较成熟的质量体系。
“算力”方面的挑战,关于端侧、车端、云端的算题,大家说到端到端,过往有一个认知,端到端需要大算力才可以部署,实际上并不是这样,对于端到端部署不需要很大的算力。但是对于云端的训练确实比较耗算力,卓驭目前已经有一个大规模的训练集群,它可以支持数千卡任务的并行训练,一个任务可以支持PB级规模的训练数据的训练。
“数据”方面的挑战,说到数据大家会说数据闭环,会说你的数据怎么获取,大家说到数据获取说的比较多,但是数据获取并不困难,无论是量产车还是研发的采集车,我们都可以比较容易拿到这些数据,真正难的地方是怎么用这些数据,怎么筛选出高质量的数据,其背后需要相关的技术,从海量数据筛选出来千分之一、百分之一真正有价值的数据拿去训练。同时,数据使用效率,数据是给模型训练的,但是训练一个模型用多少数据决定你的训练效率,卓驭通过双目方案可以极大的提升数据训练的效率,使用同样的数据量可以达到更好的性能,或者达到同样的性能数据量可以降低10-20倍。
“传感器”方面的挑战,传感器大家说的很多,有了端到端以后,有的人说有了端到端就不用激光雷达了,也有人说纯视觉是否靠谱。对于这个问题,对于卓驭来说并不纠结,因为卓驭这两个方案都有提供,对于纯是觉得方案,我们有双目的加持,在业界也是独创的系统,可以极大的提升视觉方案的表现。对于激光方案,卓驭推出了积木的系统,把激光雷达和前置摄像头集成在一起的模组,可以安装在车内前挡风玻璃上,整车来看更加美观,也更容易维护,同时通过激光和图像的融合技术,可以获得更好的点云和图像的对齐的性能,同时整个传感器成本可以降低30%~40%。
总的来说端到端研发,特别是量产落地确实很多困难,过去卓驭花了比较多的研发精力解决了很多技术、工程方面的难题。未来我们会持续迭代演进整个算法架构,给用户带来越来越好的智驾体验。
我的内容就是这么多,接下来交给合作伙伴宝骏汽车的林总与大家继续介绍。
【上汽通用五菱智驾网联首席技术官-林智桂 分享】
林智桂:接下来由我分享宝骏在智能化方面的实践。
智驾如何为用户的出行赋能?我认为任何一项新技术,应用到汽车上,出发点都是能够为用户解决什么难题,为用户提供什么价值,除此之外还要能够让用户轻松享有。宝骏品牌坚持科技平权,坚持为用户提供极致智价比的产品,今天非常有幸跟大家分享我们在智能驾驶方面的一些思考。
今天,大家对高阶智驾早已不再陌生,但从整个市场来看,高阶智驾对很多消费者而言仍是可望而不可及的。在宝骏面向20万以内的市场普及高阶智驾之前,搭载高阶智驾往往是20万、30万以上的车型。但我们从统计数据来看,20万以内的市场占据了整个乘用车市场一半以上份额。
我们发现,辅助驾驶市场渗透率已经达到50%左右,而其中高阶智驾占比还不足10%。所以,既然要为用户的出行赋能,那么首先要解决的问题,就是要让消费者“人人都能用上智驾”。
智能驾驶的演进过程,就是随着技术的发展,从只能应对简单驾驶场景到从容应对复杂驾驶场景的过程。我们可以想象在刚考到驾照的时候,只能在简单的道路上开,如果道路上车多一点、人多一点、路窄一点,都会比较紧张,但随着我们驾驶经验的积累,我们就慢慢地具备了应对复杂驾驶场景的能力,成为了一名“老司机”。
智驾的能力进化也是有着类似的过程:
早期的智驾,就像一个刚取得驾照的新手司机,只能在非常简单的驾驶场景使用。对于用户来说,它的可用范围比较小,也不太好用。而今天,智驾已经在一定程度上具备了应对复杂驾驶场景的能力,能够确保绝大部分场景下都是可用的、好用的。对用户来说,这才是用得上、有实际使用价值的智驾。当前智驾状态够了吗?我们认为还远远不够,在复杂场景,我们仍需不断去提升复杂场景的功能体验,要让智驾越来越像一个经验丰富的老司机,直到有一天能非常放心大胆的让智驾带我们去任何地方。
从让用户能用上,到任何场景都能用,再到人人都爱用,我们需要从场景出发,去了解用户使用的痛点、难点,不断的提升智驾的体验。
目前智驾主要存在的问题,例如城区复杂路况可用比例低、高速上下匝道成功率低、泊车效率低等痛点难点问题依然需要我们不断攻克。所以,今天的智驾的好坏,如果只是停留在功能的有无来评价,显然是不准确的。
宝骏汽车最懂中国用户的场景需求,灵眸智驾开发的时候覆盖17248个用户典型场景,相当于1400多个老司机开车10年走过的路,让我们有条件去真正解决智驾实际使用中存在的痛点,不断刷新智驾体验的上限。
宝骏去年推出的灵眸智驾2.0表现已经非常优秀,那么宝骏是如何做到优秀之上再突破呢?基于灵眸智驾2.0相同的硬件配置,我们升级了全新的系统架构,给大家带来了更加极致的灵眸智驾2.0Max。Max版最大升级就是“两段式端到端”的全新架构。我们把原本基于多个神经网络模型的感知任务,变成了一张感知大网。并且把原本基于规则的模型算法模块,也变成了数据驱动的神经网络模型加上规则进行安全兜底的方式,其中,多网合一的感知网络,既能提升算力利用的效率,也能显著提升多个感知任务之间的一致性,降低下游决策规划模块的负担。带给用户最直观的感受,就是在应对加塞场景、行人横穿场景、异形障碍物等复杂场景时,能力明显更强。而数据驱动的决策规划网络,能提供拟人化的决策能力,简单地说,就是让智驾更通人性。而结合久经考验的开放空间规划模块,也能让系统守住安全底线。
下面我们来看看灵眸智驾2.0 MAX的实际表现:
宝骏的灵眸智驾2.0MAX,首发搭载的车型是我们的宝骏云海,它是15万内首款量产落地端到端智驾方案的车型。这个智驾方案全面覆盖了城区、高速、泊车、安全四大场景,并且在各种场景下的能力也是可圈可点。
我们的智能行车辅助功能,堪称LCC的天花板,不仅支持了红绿灯路口自动启停,还支持智能绕行和智能调速。我们的城市记忆领航和高速领航,没有地点和道路的限制,全国都能用,全国都好用。泊车功能一直是我们的拿手绝活,现在记忆泊车巡航体验更好了,泊车效率也更高了,不管新手还是老司机,都喜欢用这个功能。
我们今天也正式宣布了灵眸智驾2.0 MAX的OTA计划,兑现科技平权的承诺,把好的智驾、好的产品让每个用户都可以享受到,欢迎大家后续亲自去试驾体验。
宝骏灵眸智驾,我们的车主实际用得怎么样呢?今年9月10日,我们发布了全系标配灵眸智驾2.0 MAX的宝骏云海,上市2个月获得大量车主的一致好评。跟大家分享一组后台的智驾数据:循迹倒车一键返航功能,已经帮助车主脱困超过上万次。值得一提的是,AEB帮助车主主动避险达1.5万次,为用户的出行保驾护航。城市记忆领航和高速领航是我们的重磅功能,无论通勤还是远行,都让您出行更轻松。今年的国庆小长假期间,有93%的用户使用我们的高速智能领航功能,其中最长里程达到1500多公里。宝骏灵眸智驾,是名副其实的人人都在用,都爱用。
接下来,跟大家畅谈一下智驾技术进化将带来哪些变革:
智驾技术的进化方向,首先就是成本控制和性能提升齐头并进,通过减少对传感器的依赖、降低地图依赖、降低算力需求等,将进一步降低智驾硬件的成本。同时,通过数据驱动、大模型、端到端等算法技术的革新,不断刷新智驾的能力上限和体验。成本更低,性能更优,不同价位的车型都能搭载,高阶智驾实现真正的全面普及。
所以,高阶智驾发展到最后,我们再提起它的时候,大家觉得这只是一个普通的功能而已,因为它早已融入我们的日常生活,成为我们平时出行不可或缺的一部分了。
在智驾技术进化的过程中,宝骏汽车致力于成为用户智能出行的好伙伴,我们始终坚持践行科技平权的理念,让每一位用户率先体验到智能出行带来的改变。
目前有越来越多的品牌正在参与进来,尤其是我们中国自主品牌,可以相信未来高阶智驾发展的过程,也将再一次重塑整个汽车市场的竞争格局。
智驾的发展还将带来哪些改变呢?
技术上:首先是智驾能力普及&突破的“并驾齐驱”。
一是普及,我们将把已有的高阶智驾能力不遗余力的去做普及的工作,就像今天我们将灵眸智驾2.0MAX普及至10万级的悦也Plus 2025款;另外是突破,在硬件构型、算法架构上的都将会有更大的飞跃,相信在明年,我们会继续给市场一个惊喜,请大家持续关注我们宝骏品牌;
二是AI大模型的全景应用,端到端大模型已开始应用在智驾领域,语言大模型也逐步应用于座舱语音交互领域,但两个场景还没有打通。通用AI大模型的全景化应用,就是把车上各个专业的垂直任务做融合,先实现真正的“舱驾一体”,然后融合更多的通用生活场景能力,把车做成一个真正的“智能体”。
商业上:
一是智驾保险的创新业务,在智驾推广的过程中,让第一次接触智驾的用户放心去使用,是一个很大的难题。为了打消用户顾虑,智驾保险是一项非常大的创新业务。我们在宝骏云海上市发布会上,推出了行业首创的智驾保险方案。多年以后再回过头来看,这可能会成为智驾推广的一个里程碑事件;
完全自动驾驶或者Robotaxi这样的产品必将会出现,这对行业的改变是全方位的。通过与城市智能交通系统的无缝衔接,用户的出行将更高效,交通事故更少,交通拥堵得以缓解;人们对汽车拥有的观念将会改变,今后车企可能不只是车辆的制造商,还可以是出行的服务商,甚至个人用户也可以在上下班通勤之外,让车辆出去接活挣外快,这些场景都可以畅想。
未来充满了机遇和挑战,非常值得期待,能够参与到这场行业的变革中,也是我们技术人员的荣幸。