新闻中心 / News
从感知融合方法看自动驾驶的发展趋势
发布时间:2022-08-08

感知作为自动驾驶系统的信息输入模块,决定着整个自动驾驶系统的下限。无论是自动驾驶感知还是机器人感知目标都是不断的通过数字化的方法逼近真实的物理世界,而这个真实的物理世界只是仅限于人类可感知的范围,例如,车道线、交通灯、行驶障碍物等等。这个过程的大前提是人类已经知道了物理世界的分类或者属性,只是让机器和系统复制人类的反应。不管是纯视觉路线还是多源融合路线,本质是感知系统方案的区别,一个侧重纵向一个侧重横向。

以特斯拉为代表的纯视觉方案还是以Waymo为代表的多源传感融合档案,其实自动驾驶系统感知模块通常会有多个传感器,通过多维度达到信息的冗余和信息的互补,但是不同的传感器之间的信息存在冲突的可能性。例如,雷达识别到障碍物,而摄像头显示可以通行,这种情况下就需要多源传感器的信息交互和融合。任何传感器在感知物理世界方面都存在一定的优劣势,每一个传感器都有独立的感知算法,所以需要以系统的角度设计整个自动驾驶的感知方案。

从硬件层面感知主要包括摄像头、雷达、高精度地图、IMU等等,在软件算法层面可以粗略的划分为数据获取、体征提取和完成感知任务三个环节,按照信息的发生前后,多源感知融合又可以划分为前融合、特征融合和后融合,可以说感知融合的方法变化也是驱动自动驾驶行业的内因,也是自动驾驶技术发展的三个不同的阶段。

第一阶段感知数据后融合。后融合也叫目标级融合,是指单个传感器分别完成原始数据的采集,独立进行特征提取和目标检测,完成感知任务后再进行预测结果融合。其优势有几点:第一点、后融合比较容易实现自动驾驶功能,对车端的算力和带宽需求也较低,2021年mobileye量产的EyeQ5芯片算力达到25TOPS、英伟达的Xavier单芯片算力30TOPS、特斯拉的FSD3.0芯片可达144 TOPS也就是说在感知后融合时期,芯片的算力不是******的瓶颈,相比现在动辄上千TOPS的算力,后融合100TOPS就可以实现辅助驾驶功能,其次后融合策略只需要传输识别结果而非原始数据,对感知通信带宽的要求也大大降低;

第二点、每种传感器识别的结果输入到感知融合模块,该模块对各种传感器在不同场景下的识别结果设置不同的置信度,最终根据融合策略进行决策,这样可以实现快速产品化。例如在特斯拉早期的白色开车事故中,毫末波雷达已经识别到障碍物,摄像头没有反应,在摄像头的高置信度下就是可通行。在特斯拉自动驾驶的感知网络中,对于视觉信号来说雷达信号就是噪声,去掉感知融合这对于视觉技术的挑战是巨大的。自动驾驶视觉零部件巨头Mobileye经过十年的研发从后装辅助驾驶走向前装量产,为客户提供单目一体化解决方案,将感知识别结果进行封装输出,可以向识别结果的决策权交给客户进行决策,而不直接参与下游的控制。在前装市场提供芯片和算法可以迅速帮助车企进行自动驾驶功能的升级,后装市场提供成形的辅助驾驶产品扩展汽车存量市场。凭借这套产品组合,Mobileye在2016年底拿下全球汽车安全驾驶系统70%以上的市场份额;

第三点,感知算法的解耦性较好,不同的感知算法之间理论上可以互为备份冗余。在自动驾驶行业发展的初期,对自动驾驶的功能定义处于粗放式的状态,对感知精度要求不高,因此后融合方案凭借优势成为自动驾驶的主流,即使强如特斯拉,也在2020年之前采用后融合感知方案。随着自动驾驶技术的发展,对产品定义更加细化,感知精度的需求也在提高,至于精确到什么程度,这就是自动驾驶技术边界的定义。第二阶段感知数据的前融合后融合需要根据先验知识对传感器进行置信度的设置,本质上是一种基于规则的方法,并且在感知信息后融合的过程中,低置信度的数据信息会被过滤,这样会产生传感器原始数据的丢失,并且随着时间序列误差会累积。进入到2020年,科技行业以数据驱动的范式席卷所有的行业,自动驾驶也从基于规则的方法转向基于知识学习,再加上车端大算力芯片开始“卷”起来,也为自动驾驶感知前融合创造了硬件基础。

前融合是将空间和时间对齐直接融合不同模态的原始传感器数据再从融合后的综合数据中提取特征向量进行识别。这种方法从数据的获取量方面解决了原始数据的丢失问题,提高了感知算法的精度,与此同时还可以省去原先在传感器中的处理芯片。例如特斯拉在九头蛇感知网络架构中,直接将摄像头的原始光子计数作为输入,扩大了视觉感知的范围。

然而,特斯拉能做出来的,其他人真不一定能搞定。前融合虽然符合数据驱动的范式,但是也面临着几个关键问题:其一、摄像头的原始数据是多维且特征复杂数据,在low vision的处理就是将数据降维输出。将原始数据作为感知网络的输入,需要较高的算法设计能力,并且这个能力的培养需要大量的测试数据成本;其二、将原始数据在空间和时间序列上的对齐融合提取特征向量,需要车端大算力芯片的支撑,这个过程是云端训练也无法取代。第三阶段感知数据特征级的融合。在自然语言处理领域大杀四方的Transformer模型架构引入到视觉感知领域后,自动驾驶感知在BEV空间中进行跨模态特征融合的网络架构效果有了一个质的提升,这也是众多厂商相仿特斯拉的纯视觉路线的根基所在。

特征级融合是先从传感器的原始数据中提取代表性的特征,再把这些特征融合成单一的特征向量进行识别,相比于前融合需要的算力和算法需求幕后融合数据的丢失问题,特征级融合可以降低数据的维度从而降低感知网络对算力的需求。传统的BEV空间转换方法主要是基于规则的逆透视变换,正如人类的眼睛一样相机所采集的图像是2D的,因透视关系的存在会出现近大远小的情况。

逆透视变换就是将成像过程进行抽象和简化从而得到证实世界坐标系和图像坐标系之间的映射关系。可以看出这种规则的方法对于远距离的区域中将2D图像投影到BEV空间的精度会失真。这一点在特斯拉AI day上有详细讲解。2020年英伟达在ECCV 2020上发布关于LSS算法的论文,核心是通过显式估计图像的深度信息,对采集到的环视图像进行特征提取、并根据估计出来的离散深度信息,实现图像特征向BEV空间特征的转换。自此BEV空间转换从规则到学习型转变,在BEV空间中基于深度学习的方法实现感知的特征级融合。


自动驾驶行业的起伏内在原因是感知算法的变化,传感器的多少只是算法变化的外在表现。自动驾驶系统也是一个高度复杂不完美信息的博弈过程,随着大模型感知方法的引入,系统对数据的依赖程度提高。无论是全数据的前融合还是基于深度学习的特征级融合,本质上都是对物理世界的度量尺度,纯视觉也好多源传感也罢,都是度量物理世界的一种方式。在后融合阶段,自动驾驶产品以功能模块的方式存在,行业是一种离散的状态,这也造就了Mobileye这样的行业巨头的崛起。随着自动驾驶对物理世界映射输入方法的变化,自动驾驶行业开始转向聚拢状态,掀起全栈自研的浪潮,主要分为两方面,一方面是只有走特斯拉的全栈自研才能获得更多的数据,打破底层数据壁垒,通过数据驱动实现产品迭代;另一方面自动驾驶产品更加聚焦场景化,产品定义场景其实是对技术的颗粒度提出更细的要求。


以深度学习为代表的自回归的方法实现自动驾驶感知技术是当前主流的趋势,随即带动整个自动驾驶产业链的变化。每一次自动驾驶感知技术的变化也是自动驾驶开发方式的调整和供应链的重构。在Transformer+BEV的大模型感知架构下,主要会体现在几个方面:第一是数据和算力成为关键因素。参照了自然语言处理领域的经验,理论上在数据和算力足够充足的前提下,自动驾驶视觉可以实现从感知到认知的跃迁,但不是最终的解决方案,感知神经网络可以收敛的前提下,随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降,针对这个问题AI大神何凯明等人提出了残差连接解决网络退化的问题,增加了网络的复杂性和不可解释性。从数学层面讲自动驾驶系统就是一个多项式非线性方程局部空间的求解,通俗一点就是最经典的例子就是大家最熟悉的俄罗斯方块;第二是自动驾驶产品的完备性无法准确定义,这也会导致原本汽车行业的一些规则面临巨大的改变,而算法的完备性主要体现在数据集上的理论效果和部署在应用产品中的实际效果,这就必然会产生一个效果差距,并且这个差距是一直存在。所以,为了弥补这个差距,自动驾驶技术发展一定是以数据+物理世界机理的融合方式存在,跳出先验知识的框架才能创造新的价值,而自动驾驶感知数据的融合方法的变化也是逐渐弱化先验方式的过程。所以,自动驾驶的感知很重要,因为这是人类认知世界的一种方式,也是因为认知世界的方式驱动整个行业的前进。 十字甫 汽车观察者联盟