在SLAM中评估大规模的点云地图仍颇具挑战,主要原因在于缺乏统一、稳健且高效的评估框架。本文提出了MapEval,这是一个用于点云地图综合评估的开源框架。在模拟数据集和真实世界数据集上开展的大量实验表明,MapEval在保持评估完整性的同时,速度至少提高了100-500倍。MapEval库将会开源,以推动机器人领域标准化的地图评估实践。
01 本文核心内容
A.动机与挑战
SLAM已成为移动机器人领域的一项基础性技术,能够实现机器人在未知环境中的自主导航。尽管SLAM包含定位和建图任务,但当前的评估方法主要侧重于轨迹精度,这只是通过定位性能间接反映地图质量。这种间接评估方式,再加上获取高精度真实轨迹数据的固有困难,对现实世界中SLAM的部署构成了显著限制,因为地图质量直接影响诸如路径规划和避障等下游任务。直接的地图质量评估提供了更全面、更可靠的评估范式。例如,如图1所示,不同区域的地图精度差异显著,这凸显了评估全局几何精度和局部一致性的必要性。这些互补的方面能够捕捉到不同的误差来源和尺度,然而现有的评估方法通常只关注其中一个方面,导致对SLAM性能的评估不完整。缺乏一个能同时兼顾这两个方面的统一评估框架,已成为推进SLAM技术以及确保其在现实应用中的可靠性的关键瓶颈。尽管其重要性毋庸置疑,但以下三个基本挑战阻碍了稳健的地图评估框架的发展:
1)缺乏统一的评估标准:轨迹评估得益于诸如EVO等标准化工具,但地图质量评估却呈现碎片化。现有的方法聚焦于孤立的方面,如全局精度或局部一致性,缺乏一个能整合这些互补指标的统一框架。这种碎片化阻碍了不同SLAM系统之间的公平和全面比较。
2)传统指标的固有局限性:SLAM地图具有大规模、环境噪声以及稀疏的真实基准等独特特征,这给现有指标带来了独特的挑战。当前的指标难以在噪声敏感度、完整性(COM)以及同时捕捉全局和局部属性的能力之间取得平衡,往往导致对SLAM性能的误导性评估。
3)可扩展性和计算效率:传统指标,如倒角距离(ChamferDistance,CD)和瓦瑟斯坦距离(地球搬运工距离,WassersteinDistance,EMD),在应用于包含数百万个点的SLAM地图时,计算成本变得过高。这种可扩展性的限制严重制约了它们在现实世界场景中的实际应用,在系统部署中,高效评估至关重要。
02 主要贡献
我们构建了MapEval,这是一个用于全面点云地图评估的开源框架,对现有评估指标进行了系统性分析,并为一致性的质量评估确立了清晰的指导准则。
我们借助体素化高斯近似对瓦瑟斯坦距离加以改进,提出了新颖的评估指标,在相同的误差标准下达成了高效且稳健的性能表现。
我们在各类SLAM系统中开展了大量实验来验证我们的框架,与传统方法相比,实现了100-500倍的提速。
03 方法架构
MapEval评估流程概述。该框架首先从真实传感器和SLAM算法获取稠密点云地图(左侧),接着利用初始姿态估计进行稠密地图对齐(中间),最后进行映射评估。
04 实验
A.实验设置
1)数据集与基准真值:我们在四个不同的数据集上对MapEval进行评估,分别是:FusionPortable(FP)、NewerCollege(NC)、GEODE(GE)以及我们自行收集的MS数据集。这些数据集涵盖了多样的环境条件和扫描模式,基准真值地图是通过高精度扫描仪以毫米级精度获取的。MS数据集是通过我们的多传感器平台(见图3)收集的,采用精度为6毫米的LeicaRTC360扫描仪。表II总结了每个序列的关键特征。
2)基准方法:我们将MapEval与两个先进的SLAM系统进行基准比较:FAST-LIO2(FL2)和PALoc。这些系统代表了不同的地图构建方式,PALoc结合了闭环优化和先验地图约束,以减少在大规模环境中的全局漂移误差。
3)实现细节:我们的评估实验整合了轨迹和地图质量评估。对于轨迹评估,我们采用了绝对轨迹误差(ATE)。在地图质量评估中,对于AWD和SCS指标,使用了对应阈值τ=0.2米和体素大小为3.0米。MME计算在所有序列中均采用一致的0.1米搜索半径。我们使用Open3D和PCL库来实现该框架,实验在配备了英特尔i7-12700kCPU和96GBRAM的台式计算机上进行。
B.模拟实验
我们利用序列S2的基准真值地图(28,633,510个点,覆盖30m×7m×4m区域)进行模拟实验,以验证我们所提出的MapEval框架的稳健性和有效性。
1)噪声敏感性分析:为评估度量对噪声的稳健性,我们有系统地向基准真值地图引入随机采样的对称高斯噪声(1厘米-50厘米)。表III中的实验结果呈现了几个验证我们所提框架的关键发现。首先,AC随着噪声水平从20厘米增加到50厘米,呈现出与直觉相悖的行为,其值降低,而CD和AWD则表现出一致的误差增长。这种差异是因为AC仅考虑距离阈值τ(方程2)内的内点。相比之下,AWD通过基于体素的高斯近似(方程4)纳入完整的点分布,从而保持稳健性。对均值差异和协方差结构的Wasserstein距离(方程5)的考量使得AWD能够捕捉全局变形,同时对局部变化保持稳健。其次,在存在小尺度噪声(1厘米-10厘米)时,SCS对局部几何变化表现出预期的敏感性,同时保持稳健性。随着噪声水平进一步增加(10厘米-50厘米),由于直接依赖于点级统计数据,传统度量指标(如MME)变得不稳定。然而,SCS通过利用Wasserstein距离的空间分布,在表征局部一致性方面保持稳定行为。这种稳健性源于我们基于体素的方法,其通过统计聚合有效地过滤了点级噪声。
2)异常值稳健性分析:我们进一步通过向基准真值地图引入不同的异常值比率(0.01%-10%)和高斯异常值距离(10厘米-100,000厘米)来评估我们所提出的度量指标。表IV揭示了我们所提出度量指标的卓越稳健性。对于极小的异常值污染(0.1%)和大的噪声范围(10厘米-100,000厘米),传统度量指标表现出极大的敏感性,AC由于其点级阈值机制趋近于零,而CD由于直接依赖点到点距离(方程3),如图4所示表现出不稳定的增长。相比之下,AWD通过利用Wasserstein距离的统计特性保持了稳健的性能。基于体素的高斯近似通过考虑异常值对整体分布而非单个点的影响,有效地处理了异常值。在中等噪声尺度(1000厘米-10,000厘米)下,CD由于局部结构愈发扭曲而无法提供有意义的评估。AWD通过在Wasserstein距离计算中考虑位置和结构差异,成功捕捉到噪声增加的趋势。对于更高的异常值比率(10%),SCS保持了对局部一致性的稳健表征,而MME由于对点级熵变化的敏感性而表现出反直觉的行为。这一全面的验证表明,我们所提出的度量指标显著提高了点云地图评估的稳健性,特别是在存在大量噪声和异常值的挑战性场景中。
C.真实世界实验
1)基于定位精度的地图评估:我们首先分析了室内(S5-S10)和室外环境(S14)中地图质量与定位精度之间的关联。此实验将定位精度作为验证我们所提出度量标准的参考。表V中的结果在不同场景下呈现出显著的模式。在有限的室内环境(S5-S10)中,FL2覆盖的局部地图自然限制了闭环的优势,两种算法实现了可比拟的全局精度。然而,传统度量呈现出不一致的表现:在序列S5中,尽管PALoc在定位精度上更优,反映在更好的CD、COM和AWD值上,但其AC得分较低。同样,在序列S7、S9和S10中,FL2实现了更好的定位精度,AWD得分更优,但CD表现较差。这种差异突显了CD在表征局部地图质量方面的局限性,同时验证了AWD在捕捉有意义的几何差异方面的稳健性。室外场景(S14)为我们的度量标准的有效性提供了极具说服力的证据。由于PALoc采用了闭环优化,其在定位精度上显著优于FL2。虽然CD在两种方法之间显示出极小的差异,但我们的AWD成功捕捉到了这种全局精度的提升,与第II-C节中描述的Wasserstein距离的理论优势相符。图5提供了S14的详细可视化,通过误差图、体素误差分布和一致性度量对FL2和PALoc进行了比较。结果表明,PALoc通过更好的AC、AWD和CDF度量实现了更卓越的全局精度。然而,PALoc的SCS性能相较于FL2略有下降,这与MME评估结果一致。此观察揭示了一个重要的权衡:尽管闭环优化减少了全局漂移,但可能会引入影响地图一致性的局部几何变形。
2)多样化环境中的地图评估:我们进一步在具有挑战性的场景中验证了我们的度量标准,包括走廊(S0)、自动扶梯(S4)、楼梯(S12)和植被密集区域(S13),如表V所示。在这些更广阔的环境中,PALoc相较于FL2展现出显著提升的全局精度,这被AWD准确捕获。然而,我们的SCS度量表明这种全局优化偶尔会损害局部一致性。传统度量未能察觉这种全局精度与局部一致性之间的权衡,这体现了AWD和SCS在地图评估中的互补性质。图6中的自动扶梯场景(S3)尤其突出了我们方法的优势。尽管视觉检查和AC值证实了PALoc具有更优的局部精度,但CD由于对噪声的敏感性给出了矛盾的结果。我们的AWD通过基于体素的高斯近似,在准确反映真实质量差异的同时保持了稳健性。这些真实世界的实验验证了我们所提出度量标准的两个关键优势。其一,AWD相较于CD在大规模环境中(特别是存在显著漂移时)对全局精度的评估更可靠。其二,AWD和SCS的结合使得能够对全局精度和局部一致性进行全面评估,揭示了传统度量所遗漏的重要权衡。
D.计算效率
我们对表II中所有数据集上MapEval的计算效率进行了剖析,将传统度量(AC/CD+MME)与我们所提出的方法(Voxel.+AWD+SCS)加以对比。鉴于庞大的点云数量,我们甚至为快速计算MME采用了多线程技术。表VII给出了不同地图规模下的处理时长。对于密集场景(约10^9个点,S1、S3、S4、S11、S13、S14),传统度量需要数百至数千秒,而我们的单线程实现仅需数十秒即可完成。在中等密度环境(10^6-10^7个点,S5-S10)中,我们的方法实现了亚秒级的处理时间,在保持评估质量的同时,相比传统方法实现了100-500倍的提速。
E.参数敏感性分析
我们针对序列S1开展了参数敏感性分析,旨在探究体素大小对度量性能的影响。图7阐释了体素大小与三个关键指标:AWD、SCS以及计算时间之间的关系。AWD随着体素大小呈现近乎线性的增长,从5厘米体素时的4.90厘米增至70厘米体素时的135.66厘米。这一趋势反映出在较大体素的Wasserstein距离计算中,均值差异占据主导地位。相比之下,SCS在不同体素大小下保持稳定,展现出其在捕捉局部一致性模式方面不依赖于空间分辨率的稳健性。计算时间随着体素大小的增加显著降低,直至在约15厘米处达到拐点,从5厘米时的162.10秒降至60厘米以上时的约5秒。基于计算效率和度量稳定性之间的平衡,我们建议在实际应用中采用2.0米至4.0米的体素大小。
05 总结
我们提出了MapEval,这是一个用于SLAM中点云地图综合评估的开源框架。该框架引入了两个互补的度量指标:AWD和SCS,分别用于全局精度和局部一致性的评估。通过广泛的实验,我们表明,与传统方法相比,我们的方法实现了100-500倍的提速,同时在各种不同的场景中保持了强劲的性能。MapEval将会发布,以促进机器人领域标准化的地图质量评估,推动可靠的SLAM系统的发展。
全部0条评论
快来发表一下你的评论吧 !