介绍一种模块化多模式架构DeepFusion

描述

作者提出了DeepFusion,这是一种模块化多模式架构,可将激光雷达、相机和radar以不同的组合融合在一起,用于3D目标检测。专有的特征提取器利用了每种模式,并且可以轻松地交换,使得方法简单灵活,提取的特征被转换为鸟瞰图,作为融合的通用表示,并在特征空间中融合模态之前执行空间和语义对齐。

最后,检测头利用丰富的多模态特征来提高3D检测性能。激光雷达相机、激光雷达相机雷达和相机雷达融合的实验结果表明了该融合方法的灵活性和有效性,在这个过程中,作者还研究了远至225米远的车辆检测这一基本上未被探索的任务,展示了本文的激光雷达聚变的好处。此外还研究了3D目标检测所需的激光雷达点密度,并举例说明了对不利天气条件的鲁棒性,对相机雷达融合的消融研究突出了精确深度估计的重要性。

领域背景

安全准确的3D目标检测是自主驾驶的核心技术,所有后续组件(如跟踪、预测和规划)在很大程度上取决于检测性能,其它交通参与者的感知错误可能会通过系统传播,导致自动驾驶车辆严重故障。为了防止这种错误,感知系统需要仔细设计,这仍然是一个具有挑战性的研究问题。多个传感器和不同的模态,主要是激光雷达、RGB相机和雷达,通常用于应对这一目标检测挑战。

多个传感器提高了系统冗余度,但不同的模态提高了检测鲁棒性,因为它们的互补物理特性可用于克服单一模态失效的不同驾驶场景。例如,激光雷达和相机在多雾天气条件下会严重退化,而雷达则相对不受影响。另一方面,雷达和单目相机存在稀疏或不精确的深度估计,这可以通过密集和精确的激光雷达点云进行补偿。

在过去的几年中,利用激光雷达、camera、雷达进行3D目标检测的任务取得了巨大进展,这一趋势由公共大规模多模态数据集推动,如nuScenes和Waymo开放数据集。然而,研究界主要关注距离达75米的近距离3D物体检测,本问主要强调远距离物体检测的重要性,因为对其他交通参与者及其行为的早期检测可以实现更安全、更快、更平稳的整体系统反应,尤其是在高速公路场景中。

因此,本文的目标是一种可扩展到200米范围以上的目标检测器设计,使用多个传感器和模态的主要挑战是融合大量冗余和互补的传感器数据,在多个传感器与感知输出的接口处,融合对整个系统的性能有着重要的影响。大多数现有的工作集中在融合激光雷达和RGB相机传感器用于3D目标检测[8]、[17]–[24]。

较少探索的是相机雷达融合[25]–[27]和激光雷达雷达融合[28]、[29],后者分别用于语义热图预测和2D目标检测。作者认为有必要为3D目标检测开发一个简单而灵活的激光雷达-camera-radar融合网络,因为雷达传感器在测量原理上与激光雷达和camera互补,雷达技术随着市场需求的增长而迅速发展。

作者提出了一种模块化网络架构,用于融合激光雷达、相机和雷达,以实现精确、稳健和远距离的3D物体检测。该方法采用可交换的特征提取器,以产生单模态检测器的良好优化架构。提取出的每种模态的丰富特征然后被转换为一个共同的鸟瞰图表示,以便在共享的潜在空间中进行方便的融合。这种网络设计使我们能够轻松地研究不同模态组合的融合,重点是激光雷达相机、激光雷达相机雷达和相机雷达融合。

多模态融合的方法

RGB相机图像捕捉物体的详细纹理信息,广泛应用于物体分类,然而,camera不能直接提供深度信息,这使得3D视觉任务具有挑战性,尤其是在单摄像机设置下。雷达点提供方位角速度和径向距离,这有助于定位动态目标。雷达对各种照明和天气条件也具有鲁棒性,然而,使用雷达的3D目标检测受到低分辨率和错误的高程估计的限制。

激光雷达点提供了周围环境的准确深度信息,与分别具有错误深度估计或稀疏度的相机图像或雷达点相比,激光雷达点在3D空间中具有更高的目标细节分辨率。因此,许多3D目标检测benchmark(如KITTI或nuScenes)都由基于激光雷达的解决方案。

RGB相机和激光雷达是文献中最常见的融合传感器,此外,[35]将RGB图像与热图像相结合,[36]将激光雷达点云与高清地图相结合,最近越来越多的作品将RGB相机图像与雷达相结合[25]–[27],只有[28]提出了融合激光雷达、雷达和RGB图像的通用框架。最先进的融合网络遵循两级([8],[17]–[19],[21],[24],[36])或一级目标检测pipeline([20],[22],[25],[37])。

例如,MV3D提出了一种具有RGB图像和激光雷达点的两级目标检测器,在第一阶段,相机图像和激光雷达点由传感器专用网络处理,以提取高级特征。激光雷达分支还生成region proposal,以便裁剪激光雷达和相机特征图。在第二阶段,通过一个小检测头融合裁剪的特征。AVOD通过融合第一和第二阶段的特征来扩展MV3D,3DCVF[23]应用选通机制来学习每个模态的权重,MMF[36]向融合管道添加了额外的任务,例如图像深度补全和地面估计。

Frustum PointNet使用预先训练的图像检测器在3D空间中生成2D目标proposal和截头体,并应用PointNet使用截头体内的激光雷达点进行目标检测。在一级pipelines中,传感器可以在一个特定层[22]、[25]或多个层[20]、[37]处融合。例如,PointPainting[22]应用预先训练的语义分割网络来预测逐像素图像语义,并将语义得分附加到相应的激光雷达点,以进一步进行3D目标检测。ContFuse[20]通过连续的融合层逐渐融合相机和激光雷达分支的特征图!

Deepfusion框架

图1所示的模块化和灵活的架构设计基于强大的特征提取器,用于对单模态输入数据进行丰富的编码。鸟瞰图(BEV)转换模块将这些特征映射到公共表示空间中。在BEV表示中,目标的大小被很好地保留,具有较小的方差和遮挡,因此非常适合3D目标检测。接下来,特征对齐模块在融合模块聚集之前,对齐模态之间的潜在表示。最后,基于融合特征的检测头为3D目标检测提供分类和回归输出。

检测器

1) Feature Extractors

对于每种模态(激光雷达、相机和雷达),都有一个单独的目标检测器可用于从各自的输入数据中提取特征。为此,使用了经过充分研究的2D-CNN架构,因为它们的密集2D输出具有丰富的细节。目标检测器由提取多尺度特征图的特征金字塔网络(FPN)和用于分类和box回归输出的检测头组成。FPN用作融合的特征提取器,而检测头用于预训练和端到端训练设置中的 axillary loss。

2)Camera FPN

camera传感器向camera FPN提供具有高度H和宽度W的形状(H、W、3)的RGB图像I作为输入。首先,FPN提取多尺度特征图,之后,这些特征图是线性的 被放大到公共尺度Z、被级联并由多个卷积层处理以用于多尺度特征混合。输出为形状(ZH、ZW、K)的高质量特征FC,其中K为通道数。

3)Lidar/Radar FPN

根据PIXOR[9],激光雷达和雷达点云由鸟瞰图(BEV)平面上的占用网格图表示,用于特征提取,网格大小为高度X和宽度Y。FPN通过向下缩放和随后向上缩放该表示来利用2D卷积处理输入网格以提取特征。这些BEV特征图用作各个分支的潜在表示,稍后在特征对齐模块中进行处理。

4)BEV Transformation

来自特征提取器的潜在表示被转换为通用空间表示的鸟瞰图,激光雷达和雷达特征已经在BEV空间中表示,而相机特征需要图像到BEV的转换。对于这种转换,文献中有不同的方法,可以根据输入表示进行分类。像OFT[41]和[42]这样的仅使用相机的方法通过估计深度,将垂直pillar合并到BEV表示中,将图像投射到3D中。

结果是密集的深度,但由于单相机的深度估计不准确,空间不精确。点云方法[20]、[22]、[36]、[43]需要3D点云(最好是来自激光雷达传感器)来指导变换,利用已知的激光雷达和摄像机之间的传感器标定,将每个点投影到相机图像和BEV网格上,在图像像素和BEV单元之间建立特征关联。由于点云的稀疏性,其结果是稀疏的表示,但由于激光雷达测量的深度精度,其空间精确。

DeepFusion使用了[43]中的点云驱动方法,因为空间精度对于3D目标检测非常重要。此外,任何传感器模态都可以用于为图像变换提供点云:激光雷达或者直接使用雷达点进行变换,并且对于相机图像,使用来自图像检测器的目标中心预测作为稀疏伪点。

在融合过程中,来自激光雷达、雷达和摄像机的点云可以被聚合,使得融合对于一种传感器的故障具有鲁棒性。如果将多个相机特征投影到同一BEV网格单元上,可以使用均值池来合并它们。结果,形状的图像特征图被转换为BEV平面,从而展开具有形状的特征图。

5)Feature Alignment

特征对齐模块的输入是来自激光雷达和雷达FPN的密集占用BEV特征图和,以及来自相机的稀疏占用的变换特征图,因此这些是不同的空间表示。此外,这些特征图来自不同的模态和FPN主干,并编码不同的语义表示。在这方面,由几个卷积层组成的特征对齐模块分别应用于,以便在空间和语义上对齐各个表示。输出为特征图具有相同形状()。

6)Fusion

融合模块接收作为分别来自激光雷达、相机和雷达分支的对准特征图,融合模块的任务是在潜在空间中组合这些不同的模态。为了得到融合特征图,融合应用操作ρ,它可以是固定操作,如池化或加权平均,也可以是可学习操作,如注意力。模块的输出是形状()和比例S的融合特征图F。

7)检测头

检测头接收融合特征图F以生成3D边界框的分类和回归输出。由于特征图F中编码了丰富的多模态特征,作者发现一个带有几个卷积层的小头部就足以生成比单模态检测器更精确、更健壮的3D目标。

实验

作者进行了详细的实验来研究每个传感器模态的特性,并验证所提出的融合架构。第V-B节比较了传感器特定检测器和不同融合组合之间的检测性能,随后是第V-C节中的一些定性结果。第V-D节显示了主要针对LC、LCR和CR融合方案的消融研究,包括天气条件好/坏、点的数量、探测距离以及225米远目标的探测性能。最后,第V-E节在具有挑战性的nuScenes数据集上对本文的融合网络进行了基准测试。

1)实验设置

实验主要是在作者内部的多模态博世数据集上进行的,这些数据集包括来自多个激光雷达、相机和雷达的记录。数据记录在欧洲几个国家(主要城市、农村地区和高速公路)和不同天气条件(晴天、雨天、多云)。目标被分为17类,并用3D边界框标记,这项工作使用了博世数据集的一个子集,包括大约10k个训练帧(训练集)和3k个验证帧(验证集)。

此外还使用公共nuScenes数据集[3]对本文的该方法与其他最先进的目标检测器相结合。该数据集是在波士顿和新加坡用激光雷达、摄像机和雷达的读数采集的。遵循nuScenes目标检测基准,使用标准平均精度(AP)度量来评估3D检测。AP得分在[0%,100%]范围内,值越大表示检测性能越好。

论文报告了具有不同定位阈值的AP及其在所有阈值上的平均值(mAP),定位阈值由检测与其gt(0.5、1.0、2.0、4.0米)之间的边界框质心的欧氏距离定义。所有检测均在140米范围内进行评估,作者分析了汽车或行人对象的检测性能,这是自动驾驶研究中的两个主要目标类别。对于消融研究,使用宽松的定位阈值(4.0米),以便补偿不同传感器中的时间偏差的影响,特别是在远距离和动态对象中。

2)检测性能的一般比较

作者比较了几种传感器特定检测器(C、R、L)和具有不同传感器组合(CR、LC、LCR)的融合网络的性能。表I显示了不同位置阈值下车辆等级的AP得分及其平均得分(mAP)。该表显示了与传感器专用网络相比,传感器融合明显改善了AP。CR分别比C和R提高了20%和10%以上的mAP,LC提高了5%的mAP。LCR融合了所有传感器模态,实现了最佳的检测性能,这些实验结果验证了提出的融合架构的有效性。

为了研究每个传感器模态的特性,图2显示了4.0米定位阈值下AP得分相对于检测范围的演变。带有激光雷达点(L、LC、LCR)的检测器性能优于没有激光雷达点的检测器(C、R、CR),且有较大的余量。例如,L在距离100~140米时超过CR 20%AP,显示了使用激光雷达点进行远程探测的重要性。

此外,LC在更大的距离上提高了L,接近20%的AP。作者假设这是因为相机图像提供的目标纹理特征有助于检测,特别是当激光雷达点在远距离变得稀疏时。最后,当比较LCR和LC时,作者观察到1%的AP略微改善,这表明雷达编码的某些目标特征与相机和激光雷达的目标特征互补,例如速度。

检测器

3)定性结果

图3显示了论文在Bosch数据集上用于车辆检测的LC和CR融合模型的定性结果,通过可视化非最大抑制前的目标热图,比较了融合和相应的单峰基线模型。红色表示车辆目标的高度可信度。融合模型能够可靠地检测到橙色突出显示的基线模型遗漏对象。图3(a)和图3(b)显示了带有相机图像的LC结果、基线L的热图和LC的热图。

在(a)中,LC能够检测到具有高遮挡水平的停放车辆,这是L模型所缺少的。在(b)中,LC在高速公路上检测到一辆高度闭塞的汽车,这在仅使用激光雷达的模型中显示出较低的得分。图3(c)和图3(d)显示了相机图像的CR融合结果、基线R的热图和CR模型的热图。在(c)中,没有检测到停放的车辆,因为部分遮挡的静态物体对雷达来说特别困难,而与摄像机融合则能够检测到它们,在(d)雷达对远距离目标的斗争中,CR融合可靠地检测到这些目标。

检测器

4)详细分析和消融研究

1) LCR融合:作者研究了天气条件对LCR融合的影响。为此,博世数据集的验证集被分为晴天集(晴天或阴天,道路干燥)和恶劣天气集(雨天,道路潮湿)。基于激光雷达的模型L、LC和LCR根据这些分割进行评估。图5(a)显示了具有4.0米阈值的汽车等级的AP得分。

在恶劣的天气条件下,每种型号的性能都会随着距离的增加。模型L的性能差距最大,AP下降11%(范围为100−140米)。为了进一步量化这种nicebad  gap,论文使用mRAPD metric作为对坏天气条件的鲁棒性度量。它通过坏天气相对于好天气中的差AP平均值在D距离区间上平均计算得出:

检测器

使用mRAPD度量,作者发现仅使用激光雷达的模型L在坏天气下减少7.1%mRAPD。这是因为雨天会降低点云质量,减少每个目标的点数,从而导致“缺失点问题”。由于没有互补传感器,模型L无法补偿减少激光雷达点的信息损失。在这种情况下,与相机图像的融合弥补了“缺失点问题”,只减少了4.0%mRAPD、

对于LC模型。LCR模型对天气条件最为稳健减少2.7%mRAPD,因为雷达比激光雷达或相机受雨天影响小,论文进一步研究了LCR融合在激光雷达点密度和检测距离方面的性能,对L、LC和LCR模型进行了比较,图4(a)和图4(b)分别显示了汽车检测的召回率与边界框内激光雷达点的数量和140米内的检测范围有关。

与仅使用激光雷达的网络相比,将激光雷达点与相机图像融合显著提高了召回率。尽管L型激光雷达使用17次以上的激光雷达观测且85米探测范围内的召回率达到50%以上,但LC型激光雷达只需要8个激光雷达点,即使在140米处,召回率也保持在近60%。在相同的激光雷达密度或探测距离下,LCR略微提高了1%的召回率。

检测器

2) CR融合:当执行相机-雷达融合(CR)时,使用雷达观测(R点)的3D位置和相机分支网络(C点)预测的3D物体质心来提取相机特征。那些camera特征被重新投影到BEV平面上,以便与雷达特征进行融合,因此,融合性能高度依赖于3D点的“质量”。

本消融研究评估了用于CR融合的3D点的原点的影响,在推理过程中,根据用R点和C点(C,R点)训练的CR模型,交替使用点类型将相机特征投影到BEV网格上。作者将使用C和R点“CR(+C,R点)”的推理与使用C点“CR”(+C点)或R点“CR+R点”的推理进行比较。

此外还测试了使用激光雷达点位置(L点)提取相机特征时CR融合的性能,称为“CR(+L点)”,它作为CR融合的上限,假设C和R点可以匹配L点的密度和精度。最后使用激光雷达专用探测器“L”作为基准,结果如图5(b)所示。从图中可以看出C点在CR融合中的重要性:“CR(+C点)”比“CR(+R点)”高出5%的AP,并且在C点之外加上R点并不能改善融合,正如“CR(+2点)”和“CR(+3点,R点))”之间的类似性能所示。一个原因可能是C点可以用有用的相机特征捕捉更多的物体位置,而R点的位置不准确或由于测量误差和遮挡而丢失。

此外,将“CR(+L点)”与其他CR模型进行比较,论文观察到高达40%AP的显著性能提升。“CR(+L点)”甚至在距离大于70米的情况下优于仅使用激光雷达的检测器,尽管它是在没有任何激光雷达点的情况下训练的。结果表明,在提取相机特征时,准确和密集的3D位置非常重要。

检测器

3) 远距离物体检测:表II比较了用于远距离汽车检测的L和LC模型。尽管这两个模型的训练距离都只有140米,但所提出的融合架构不断改进训练范围之外的仅使用激光雷达的检测器,并在200米以上达到近30%的AP,结果验证了该模型的长期可扩展性。

4)nuScenes数据集上评估

作者基于具有挑战性的nuScenes基准对基于激光雷达的模型进行了评估,用于3D目标检测。由于根据预训练规则,在COCO上训练的MaskRCNN网络不允许出现在nuScenes检测排行榜中,因此作者使用轻量级的EfficientNetB0架构,并将来自ImageNet的预训练权重作为camera backbone。

此外,在将输入图像输入到模型中之前,将输入图像从原生分辨率1600×900缩小到576×256。论文发现这种分辨率足以在减少推理时间的情况下获得良好的融合结果。由于激光雷达和雷达点在数据集中非常稀疏,论文遵循nuScenes的常见做法,为论文的模型聚合多达10个激光雷达扫描和多达7个雷达扫描,并进行自我运动补偿,聚集的激光雷达扫描用于当前相机图像的BEV变换。作者还比较了融合方法的激光雷达基线性能,为此,使用了nuScenes验证分割,因为相关论文报告了它们的激光雷达基线性能。

表III比较了nuScenes验证集上汽车和行人等级的AP得分,论文将重点放在这两个最有代表性的层级上,以排除[51]中研究的明显的层级不平衡问题的影响。凭借77.9和77.1的汽车和行人检测AP,论文的PointPillar类激光雷达模型(L)提供了坚实的基线。

将激光雷达点与相机图像(LC模型)融合,分别提高了车辆和行人类别的激光雷达模型(L)的+2.5%AP和+6.6%AP得分,这表明了相机图像纹理特征的重要性,尤其是在检测小物体时。激光雷达相机雷达模型(LCR)获得了最佳结果,与激光雷达模型(L)相比,AP增益分别为+3.7%和+7.5%,验证了论文的融合设计有效性。

检测器










审核编辑:刘清

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分