02/06/2020
EPISODE 8
9 MIN

010 | 特斯拉撞卡车问题有解吗？谈谈自动驾驶感知前融合架构的优势和难点

郭继舜带你读汽车科技

编者按：《郭继舜带你读汽车科技》旨在从第一性原理出发，尝试拨开迷雾，解读热点背后的汽车科技真相。

本栏目由智能驾驶专家郭继舜博士与汽车之心联合出品，内容独家授权汽车之心发布。

前情提要：由于昨天（6 月 1 日）台湾嘉义的特斯拉 Autopilot 事故，我们对 Autopilot 感知系统的安全性以及虚拟激光雷达进行了初步的探讨，同时对自动驾驶多传感器感知后融合的架构进行了一些介绍。

今天，我们来谈谈自动驾驶的感知前融合技术。

同样是特斯拉的新闻，根据外媒报道：2019 年 10 月，特斯拉收购自动驾驶感知创业公司 DeepScale。

DeepScale 的优势主要有两个：

第一，感知前融合（Early Fusion），在做目标检测前利用传感器的原始数据（RAW Data）而不是目标数据（Object Data）做感知融合，大大提高感知系统的鲁棒性；

第二，在不牺牲性能的前提下，通过重新设计神经网络来提升感知系统的效率，使深度学习模型在有限算力的嵌入式设备上运行成为可能。

除了 DeepScale，国内自动驾驶圈曾经的知名创业公司 Roadstar 也把感知前融合技术作为他们解决方案中重要的技术优势，相比于上一期我们提到过的后融合的感知方案，前融合的确具备一定的先进性。

在这里可能需要解释一下：虽然多传感器融合技术从上个世纪 70 年代开始，就已经随着声纳信号处理的需求被美国军方提出来了。

后来在 80 年代，又发展出了多传感器数据融合 MSDF (Multi-sensor Data Fusion) 技术，并且后续理论逐步完善，发展出了包括卡曼滤波、贝叶斯估计、D-S 证据推理、神经网络等等多种理论方法，但是其应用领域更多是信号处理方面。

由于算力不足以处理海量的数据，所以更多的是从信息论与概率论的角度来对观测值求取统计学上的一致无偏最优估计。

但在现在算力爆发的条件下，在自动驾驶的应用背景下，我们在工程实践上更多地会根据实际需要解决的问题，来对技术框架进行梳理，包括后融合与前融合这些行业内的常用说法，可能并不是严谨的学术术语。

回到前融合技术，相比于后融合，前融合具有很大的优势，简要总结为三点：

1.后融合感知框架中，每个传感器单独识别物体。

对于大型物体（如货车），单传感器识别只能识别到物体的一部分，从而容易导致大小及分类识别错误。

前融合通过将所有传感器原始信息有机组合，形成较完整的空间占据数据后，通过数据之间的互补能有效降低因部分识别造成的误判。

2.后融合感知框架中，不同的传感器因自身能力限制，特定条件下可能发生漏检或误检。

上述错误会直接输入后续的融合框架中，后融合对于已经引入的错误的过滤与纠错能力有限，可能无法识别与跟踪特殊物体或者小物体。

而前融合的数据，在融合后能够将数据维数扩展到更加高维的空间，包含的信息更加丰富，能够让算法的分类边界更加易于训练与实现，同时对于小目标的识别率有很大的提升。

3.后融合感知框架中，需要针对不同的传感器训练不同的感知算法，最终的感知结果取决于每个算法的性能，难以调优。

前融合感知框架则能够通过一个单一的识别算法模型对融合后的数据进行统一处理，优化起来更加方便。

当前的数据前融合感知的主要手段有两种：

1.传统的基于三维空间理论分析方法。

首先将图像和激光雷达或者毫米波雷达的信息统一坐标系，即空间同步。

其次对传感器每帧的数据进行校准，进行时间同步。

然后寻找空间之间最佳的线性变换矩阵，将图像标定后每个像素的距离信息与点云进行配准，或者利用点云和摄像头像素的共线原理将点云投射到摄像头图像中进行融合。

融合得到的结果是具备颜色信息的点云数据，或者是具备深度信息的图像数据。

最后再基于融合的结果进行后续的识别操作。

这种方法的优点是可解释性强，对数据的依赖较小，标注工作量小，缺点就是需要极强的标定能力，一旦传感器的种类与位置稍有变化，就需要重新进行标定。

基于视觉染色点云

2.基于神经网络/深度学习的方法。

该方法不会进行点云与像素之间的相互映射，而是直接以端到端的形式输出检测的目标、车道线以及其他的预期目标。

首先对图像和点云进行时间空间同步，然后根据预期的输出目标将图像和点云进行分别标注，将标注好的图像和点云数据输入到神经网络。

通过神经网络去学习图像和点云之间的对应关系和点云和图像的相关性，使得输出结果更加准确。

这种方法对于标定的能力要求大大降低了，可以容忍一定的传感器变化，但是对标注工作量需求大增，因为引入了深度学习模型，可解释性比较差，且对算力的要求更高，目前还是处于探索阶段。

RoadStar 所采用的感知前融合架构

（来源：RoadStar 分享资料）

DeepSense 网络结构

（来源：DeepSense: A Unified Deep Learning Framework for

Time-Series Mobile Sensing Data Processing）

但是，虽然前融合感知技术能够提高感知系统的准确性与鲁棒性，但在当前还主要面临下面几个难点，造成这个技术并没有被广泛的采用，简要总结为四个难点：

1.数据来源问题：前融合需要对传感器的原始数据进行融合，所以需要各个传感器都能够给出原始的 Raw Data。

但是受限于产品接口与商业协议等等问题，有些传感器无法获得原始数据（例如我们在量产中使用的博世毫米波雷达，EyeQ4 的智能摄像头等），对于这些传感器无法适用前融合感知框架。

2.时间同步问题：通过统一的主机给各个传感器提供基准时间，各传感器根据已经校准后的各自时间为各自独立采集的数据加上时间戳信息，可以做到所有传感器时间戳同步。

但由于各个传感器各自采集周期相互独立，无法保证同一时刻采集相同的信息。时间误差需要在 1 微秒以内，当前是比较难以达到的。

3.空间同步：将不同传感器坐标系的测量值转换到同一个坐标系中，其中激光传感器在高速移动的情况下需要考虑当前速度下的帧内位移校准。100 米外的物体距离精度要在 3 厘米以内。

这对于标定测量提出极高要求。同时，由于在使用过程中传感器的参数与相对位置可能也会发生一些改变，出厂时的标定参数不一定能够使用，所以如何实现在线重标定也是一个难以解决的问题。

4.算力需求：前融合神经网络通过全面接收整车所有传感器数据，通过超大规模神经网络运算识别出障碍物位置、大小及分类信息。这对于硬件的 AI 算力提出极大要求。

当然，不管是前融合还是后融合，白猫黑猫，抓住老鼠才是好猫。

在现在这个阶段，自动驾驶需要的是更加安全与鲁棒的感知系统，最终还是需要根据当前的软硬件条件来选择最适合自己的感知系统实现方案。

我们上一期讲到，特斯拉的虚拟激光雷达可能是一个非常好的探索，由于摄像头的被动感知模式，通过特殊设计的车灯和特定波长的滤镜（参考激光雷达）或许能够在一定程度上改善摄像头失效的问题。

但是，基于功能安全的分析和考虑，自动驾驶所需要的感知方案最终必然是一个足够异构冗余的多传感器融合方案，才能够真正的保证自动驾驶系统的安全性。

还是那句话，虽然我很喜欢特斯拉的电动车，虽然我连续两个晚上熬夜看 SpaceX 的载人火箭发射热血沸腾，但在高级别智能驾驶方面，我依然是激光雷达坚定的支持者。

往期回顾：

特斯拉撞上了侧翻的大货车，从台湾嘉义事故谈传感器融合

自主品牌向上突围，中国车企推出高端品牌的逻辑

智能汽车的中国芯：华为MDC首发测评

字节跳动入局车联网，互联网应用上车要解决哪些难点？

为什么欧美车企纷纷放弃L3，而中国车企热衷量产L3？

传统车企为什么造不出Autopilot，特斯拉L4战略存在什么风险？

为什么实现车路协同比造一辆特斯拉还难？

本期制作

主讲：郭继舜监制：王德芙

编辑：叶方后期：陆非

设计：陈溪阳运营：林芝芝

音频平台

喜马拉雅 | 蜻蜓 FM | 听伴

Podcasts | 小鹅通

在以上平台搜索关注汽车之心

即可收听全部节目

「汽车之心·行家说」预告

华为智能座舱的野心：HiCar上车，为鸿蒙OS铺路

千倍成本压缩！特斯拉开发虚拟激光雷达，替代最贵自动驾驶传感器

蜂巢能源抢先落地，无钴电池的第一次出击

Episode Webpage

Show

郭继舜带你读汽车科技
Published

2 June 2020 at 23:25 UTC
Length

9 min
Episode

8
Rating

Clean

010 | 特斯拉撞卡车问题有解吗？谈谈自动驾驶感知前融合架构的优势和难点

Information