新闻中心 / News
端到端会是自动驾驶的新路径吗?
发布时间:2023-11-07

自动驾驶的系统分为感知、决策和执行三大模块,车内外的数据流是以感知为始,车辆的执行为终,整个系统和计算机系统类似输入信息——计算处理——输出结果。感知模块作为自动驾驶系统的初始条件输入,一定程度上决定着自动驾驶系统的下限,同样,机器视觉从感知到认知的进化过程中,自动驾驶将会是一个重要的应用场景,汽车的智能化也是机器智能的子领域。人类对机器智能的探索过程也是人类不断对物理世界开展计算的过程,1950年英国计算机科学家图灵提出的图灵测试,通过模拟一个智能对话来判断机器是否具备人类水平的智能,本质上也是对数字计算能力的边界探索。自动驾驶也是汽车周围环境的数字计算处理,也是不断逼近模拟真实物理世界的过程。

从人类科学的发展历程中可以发现,所有新技术新产品的基础都是物理方法和数学理论的支撑。自动驾驶是在计算机体系的大厦上建造的自动驾驶系统具备甚至超越人类的驾驶水平,目标的参照物是以人为核心,实现智能化产品的需求管理、设计方法、交互逻辑。所以,自动驾驶系统和人的生物系统具有相似性,这种相似性主要体现在两个层面。

第一个层面是系统层面。从生物学的角度看,人的眼睛是人类器官中最重要的器官,居五官之首。视觉在人们认识客观世界的过程中起到极其重要的作用,通常外界环境感知信息90%是由视觉完成。同理在自动驾驶系统中,环境感知中的视觉扮演着十分重要的角色,尤其是在特斯拉汽车的纯视觉自动驾驶系统的影响和产品落地成本压力之下,单传感器的视觉在自动驾驶系统中的重要性更加明显。

自动驾驶的技术探索也是发起在计算机视觉领域,在上世纪70年代自动驾驶技术在学术界的探索期,视觉算法主要是基于简单的规则和启发式方法来处理和识别简单的形状和模式;90年代,计算机在处理速度和存储技术方面性能提高,计算机视觉系统应用范围进一步扩大,自动驾驶技术的探索开始萌芽;2010年左右,深度学习技术在计算机视觉领域广泛发展,神经网络算法引入自动驾驶视觉感知算法之中,自动驾驶系统的感知效果有了质的提升,与此同时自动驾驶成为科技领域的新风口,资本和创业者涌入自动驾驶赛道。可以说自动驾驶技术的进步也是计算机视觉技术发展的历程,视觉能否实现无人驾驶有待验证,但是自动驾驶一定是需要视觉技术的支撑;

第二个层面是更深一点的视觉技术层面。在对物理世界的感知层面,相比图灵机时代的符号主义,以联结主义时代通过模仿动物神经网络行为特征,进行分布式并行信息处理的算法模型进一步拉近了数字世界和物理世界的距离,首先是神经网络中感知机所用的元模型最早是在1943年提出的M-P模型,该模型将输入信号进行加权平均运算,若超过某一个阈值则向后传递信号否则被抑制,有点类似半导体的二极管原理很通俗易懂,但是实现的方式和效果却需要一定的工程能力;

其次模型训练的理论依据是在1949年提出的赫布学习规则。所以说,人类对智能的探索从未停止过,1956年达特茅斯会议首次提出人工智能的概念发展至今,随着数据和算力的提升,人工智能又迎来一次跃迁。在计算机视觉感知领域以神经网络为主干可以划分为小模型时期和当下流行的大模型时期,小模型的代表是深度神经网络、卷积神经网络、循环神经网络等等,大模型的代表是Transformer架构。

从小模型到大模型并不是理论上的颠覆和切换,首先是视觉算法技术的延续,正是这种延续性和相似性让视觉感知的商业化范围扩大,间接的影响自动驾驶乃至智能化的技术发展;其次是用物理的思维认知数字世界。从神经网络的变化过程中可以看出这一趋势,深度神经网络是多层感知机网络,具有三个基本类型的层,输入层、隐藏层和输出层,不同层之间的感知机是全连接,逐层单向传递信号,本质上是对像素点的一一对比学习。在自动驾驶感知中,输入层得到的数据是图像,而图像是一个多维的数据,在识别的过程中需要设置大量输入神经元及多个隐藏层,显然这种神经网络模型的参数量很大,结果就是训练难度增大并且算力要求很高。

在物理学上,伽利略经典的两个铁球同时落地的实验标志着科学的新纪元,物理方法的核心是寻找事物所遵守的基本法则和原则,例如无论圆的半径多大,圆周率是不变的、伽利略推翻亚里士多德的理论,证明物体下落的快慢和物体的重量无关,例如测量国界线的长度,即使在欧几里得几何图形中也无法用米尺测量,但是可以在地图中使用比例尺和测量单位的手段获得界限的长度。在这个过程中,物理世界和数字之间的逻辑关系是不变的,通过事物的特征获取了事物的全貌。这种思路在视觉感知领域的应用正如一张图片中人脸的识别,并不需要对每个像素点进行一一对比学习,而是先搜索脸部轮廓以及五官及其他特征,当这些特征同时出现时,就可以判定图片中是人脸,这种思路在算法中就是卷积神经网络,本质上是在数据输入深度神经网络之前进行数据的特征提取后的降维,从而提高神经网络的运行效率,降低对算力的要求。

然而在卷积神经网络对数据进行特征提取降维之后会丢失一些有价值的信息,忽略整体和局部之间的关联性,这种关联性除了空间还有时间序列的关联。例如再回到人脸识别的例子中,神经网络提取了脸部轮廓和五官的特征之后就可以判定是人脸,但是在一张图片中,如果五官和脸部轮廓是分离的,按照卷积神经网络仍然有概率将图片识别为人脸。第二例子,在自动驾驶中,视觉感知需要完成目标的跟踪以及盲区的预测等任务,这就需要在神经网络中具备处理时间序列的信息。这就是在传统的深度神经网络中的隐藏层中引入循环,也就是在每一个隐藏层上的感知机都有上一时刻的隐藏层上而所有记忆连接,在输出层的体现除了输出当前时刻的输入信息以外,又加入了之前某时刻的输出相关。这样一来,在感知算法层面可以实现时间和空间的计算和扩展,物理中的体现即为维度的处理过程。循环神经网络的弊端在于硬件需要更大的缓存同时整个网络对数据的并行处理能力下降从而限制计算效率。

在物理领域,一般机械效率的计算是输出功与输入功的百分比,做功的多少也是和时间和空间紧密相关。而在算法领域,算法的效率分析主要分为两类,第一类是时间效率,也就是时间复杂度,主要是衡量算法的运行速度;第二种是空间效率,也就是空间复杂度,主要衡量运行算法所需要的额外空间,典型的例如硬件存储。无论是物理还是数字算法都在时间和空间的维度进行优化,提升系统的运转效率,同时这两个维度也是一切系统和产品设计最本源的出发点。在感知算法层面,空间的体现就是泛化性,时间的体现就是并行计算效率。小模型的时代,神经网络只能处理标准过的物体进行相似性比对,通过不断地对比学习完成识别任务,存在存储时间长度有限以及顺序依赖的问题。

2017年谷歌发表论文提出Transformer网络架构,其基本思想是假设一个有逻辑的序列,关键是为每一个元素(token)找到其他元素(token)的关系权重。Transformer网络架构最早是在自然语言处理领域大杀四方,自然语言处理是一个序列任务,Transformer网络架构处理自然语言处理中有天然的优势。2020年,Vision transformer网络将图片按序列切成小片后再输入到transformer模型架构中,标志着transformer正式进入计算机视觉感知领域。从语言语音处理到视觉图像处理,也是视觉感知技术从规则经验到数据驱动的过程,语言处理的本质是信号的处理,Transformer网络架构的应用将语言语音和视觉图像集中到了统一的基础框架之下,再次凸显出物理方法在数字算法领域的应用。Transformer网络架构引入了注意力机制,只对重要的信息关注而非全部的信息,在时间性方面具有更高的并行计算效率,在空间性能方面具有更强的泛化性。

2021年特斯拉汽车在AI day上展示了Transformer网络架构在自动驾驶领域的应用,预示着自动驾驶视觉感知技术正式进入大模型时代。


自动驾驶系统中的感知不仅仅是视觉还包括毫米波雷达、激光雷达、地图、IMU、加速计、超声波雷达等等,通过多样的硬件达到安全冗余和信息互补,以此不断地逼近真实的物理世界。传感器的多样性会造成数据信息的冲突,对于单一的传感器数据来说,其他的传感器数据如同噪点,这也是特斯拉汽车发展纯视觉自动驾驶的一个重要原因。纯视觉是在单一的传感器数据中不断增加数据量,多传感器是将不同的传感器数据进行融合冗余处理,本质上都是通过算法对真实物理世界的不断细化描述,从技术方面并没有优劣势。

自然语言处理和图像识别二者都可以统一在信息论的技术框架之下,而自然语言是一个时间序列的输入,而图像识别会涉及到维度空间的变化,理解维度的变化也就是认知世界坐标的变化。BEV鸟瞰图是将三维视角进行降维,以“上帝视角”描述感知物理世界的坐标,所以不仅仅是应用在纯视觉、也可以是多源传感器融合甚至在车路协同中。也就是说,BEV+Transformer网络架构的大模型在一定程度上可以解决自动驾驶感知的时间性和空间性的问题,感知效果将会有质的提升,但是是否会成为终极的自动驾驶感知方案仍然需要产品和技术发展的验证。

从特斯拉汽车到国内自动驾驶相关的企业的策略中可以看出,自动驾驶的下一个竞争场景是城市辅助驾驶,相比以前高速场景,城市场景首先是出现频率更高,用户更加刚需;其次城市场景面临的长尾问题更加复杂,更加能体现技术的领先性;最后城市场景更加偏向C端市场,这就意味着对自动驾驶系统的成本约束更大。BEV+Transformer网络架构的大模型现阶段可以在底层技术上提高算法效率同时增加了算法的可扩展性,下一步需要考虑的就是成本问题,在自动驾驶系统上做减法。

第一阶段、降低高精度地图的输入权重。首先有个大前提,所有的智能体一定是需要地图的,地图是理解物理世界的空间分布、相关关系和发展趋势的重要手段。车载高精度地图数据规模巨大,制图和更新耗费资源较多,地图的精度和系统的成本出现博弈。在BEV空间坐标下,自动驾驶车辆通过将不同视角的视觉图像统一转换到上帝视角,相当于实时生成地图信息,为决策规划提供道路拓扑信息。所以,行业内“轻地图、重感知”成为自动驾驶当前的主流方案。例如小鹏汽车,增加车载算力,利用多相机和雷达数据融合,直接输出BEV下交通参与者的静态和动态信息,一定程度上具备了实时生成地图的能力。这一点小鹏汽车、毫末智行等国内众多的视觉方案和特斯拉是相似的。解决一个问题,新的问题又出现了,纯视觉方案的******的问题在于在训练集中没有出现过的物体,系统是无法识别的,也就意味着现阶段的纯视觉技术一定会有约束性,长尾问题一直存在。

第二阶段、占用网络,将视觉识别体素化。2022年特斯拉汽车在AI day上展示了Occupancy Network新一代的视觉感知技术,先将三维空间划分为体素(小立方体),再去预测每个体素是被占用还是空闲,通过体素的概率值预测可行驶区域。BEV是一个2D的图像空间,而占用网络是升级为3D的处理空间,这样就可以通过视觉技术弥补部分激光雷达的作用。并且在特斯拉汽车在HW4.0中预留了4D毫米波雷达接口,这是弥补视觉算法中识别物的高度信息。

第三阶段、基于大模型的端到端自动驾驶模型。端到端的自动驾驶系统本质目标是建立一个驱动模型,以时间为序列将输入信息映射到控制执行侧。在自动驾驶行业初期,2016年英伟达发表论文《End to End Learning for Self-driving Cars 》介绍了实现车道保持功能的端到端模型。一时间端到端的方法成就了众多的自动驾驶demo车,然而面对嵌入式量产成本和可解释性的要求,自动驾驶的端到端方法逐渐被冷落,这也是众多自动驾驶创业公司面对量产出现的根本性的难题。

大模型在视觉感知领域的兴起又一次将端到端的方法引入到自动驾驶行业。2023年CVPR******论文《Planning-oriented Autonomous Driving》(以路径规划为导向的自动驾驶),论文首次提出感知决策一体化的自动驾驶通用大模型UniAD,开创了以全局任务为目标的自动驾驶大模型架构先河,提高了自动驾驶系统的扩展性。在今年CVPRworkshop中,特斯拉汽车的感知负责人也发表演讲,介绍了通过BEV网络进行特征提取后建立的基础模型——World Model,然后可以通过微调来实现下游任务,这种方法和语言大模型中的预训练+微调的范式很像,以World Model作为自动驾驶基础模型下游任务包括占用、路面、物体、车道线、红绿灯。虽然特斯拉汽车并没有明确押注大模型的端到端自动驾驶方向,但是可以肯定的是他们一定也在这方面有探索尝试,具体就看今年的AIday是否会有惊喜。

理想汽车在6月份的家庭科技日发布自动驾驶技术进展,采用BEV大模型,实时感知和理解环境中的道路结构信息,针对复杂路况、使用自研的神经先验网络提前进行路口神经先验网络特征的提取和存储,再与车端感知大模型融合得到感知结果。,针对信号灯识别,训练了端到端的信号灯意图网络,用大模型可以实现端到端信号灯意图识别。

从生物学的角度来看,端到端的方法更类似人类的信息处理过程。然而端到端需要大量的数据训练并且存在不可解释性。这一点和当年飞机的出现有点相似,鸟飞派和空气动力学派最终胜出的是空气动力学派。按照这种思路,端到端的方法将会是一条断头路,但是在AI时代,一切基础原理都有可能被重构,所以未来自动驾驶是基于大模型的端到端还是从场景到驾驶行为的映射不好预测,唯一可以确定的就是大模型时代端到端方法也是一条探索自动驾驶的新途径。

无论是自动驾驶产品还是底层算法,人类的目标始终都是通过数字无限逼近真实物理世界,在科学的范畴之内,物理世界理论上是可以测量计算的,例如前面提到人的视觉可以处理90%的信息。然而人类的肉眼只能看到5%的世界,例如电磁波,超声波这些视觉是无法感知到,所以作为一个机器智能体,应该是在时间维度和空间维度领先于人类,而不是和人类持平。作者:十字甫