来源:3D视觉工坊
0. 这篇文章干了啥?
3D多目标跟踪(3D MOT)在各种机器人应用中发挥着关键作用,例如自动驾驶车辆。为了在驾驶时避免碰撞,机器人汽车必须可靠地跟踪道路上的物体,并准确估计它们的运动状态,例如速度和加速度。尽管近年来3D MOT的发展取得了很大进展,但大多数方法仍然使用近似的物体状态作为数据关联的中间特征,而不是明确地优化模型在状态估计上的性能。尽管存在一些跟踪方法,它们通过采用基于滤波器的算法(如卡尔曼滤波器(KF))来预测运动状态,但它们通常通过复杂的启发式规则来估计物体状态,并且无法以数据驱动的方式轻松利用外观特征或原始传感器测量值。虽然有一些基于机器学习的方法将预测头添加到检测模型中以估计运动状态,但由于计算和内存限制,它们往往无法从长期时间信息中产生一致的轨迹。
为了解决现有方法的局限性,这篇文章引入了STT,一种带有Transformer的状态跟踪模型,它将数据关联和状态估计结合到一个单一模型中。模型架构的核心是一个执行数据关联的Track-Detection Interaction(TDI)模块,该模块通过学习轨迹与其周围检测之间的交互来执行数据关联,以及一个Track State Decoder(TSD)模块,它产生轨迹的状态估计。
所有模块都是联合优化的,这使得STT能够在简化系统复杂性的同时获得优越的性能。现有的跟踪评估主要使用多目标跟踪准确度(MOTA)和多目标跟踪精度(MOTP)来衡量关联和定位质量,但它们不考虑其他状态的质量,例如速度和加速度。为了明确捕捉跟踪性能的全面状态估计质量,将现有的评估指标MOTA扩展为Stateful MOTA(S-MOTA),它在标签预测匹配期间强制进行准确的状态估计,将MOTP扩展为MOTPS,它适用于任意状态变量,以便评估位置以外的状态估计质量。
2. 摘要
在自动驾驶中,追踪三维空间中的物体至关重要。为了在驾驶时确保安全,追踪器必须能够可靠地跟踪物体跨帧,并准确地估计它们的状态,如当前的速度和加速度。现有的工作经常专注于关联任务,而忽略了模型在状态估计上的性能,或者部署复杂的启发式方法来预测状态。在本文中,我们提出了STT,一种使用Transformer构建的具有状态的跟踪模型,它可以在场景中始终可靠地跟踪物体,同时准确地预测它们的状态。STT通过长期历史的检测消耗丰富的外观、几何和运动信号,并针对数据关联和状态估计任务进行联合优化。由于标准的跟踪指标如MOTA和MOTP不能捕捉到在更广泛的物体状态范围内这两个任务的综合性能,我们使用称为S-MOTA和MOTPS的新指标来扩展它们,以解决这一局限性。STT在Waymo Open Dataset上实现了具有竞争力的实时性能。
3. S-MOTA
S-MOTA度量的示意图。MOTA只考虑了标签预测匹配中的欠条,而没有揭示状态误差(例如,图中所示的速度误差)。S-MOTA通过额外的阈值化步骤来评估预测状态的准确性,从而解决了这一限制。
4. 主要贡献
为了展示STT模型的有效性,作者在大规模Waymo Open Dataset(WOD)上进行了大量实验。STT在扩展的S-MOTA和MOTPS指标上取得了58.2的MOTA竞争性表现和最新的结果。总体贡献总结如下:
1提出了一种3D MOT跟踪器,它可以在一个可训练的模型中跟踪对象并估计其运动状态。
2)我将现有的评估指标扩展为S-MOTA和MOTPS,以评估跟踪性能,明确考虑状态估计的质量。
3)提出的模型在标准指标和Waymo Open Dataset上的新扩展指标上的基准模型上取得了改进的性能和最新的结果。
5. 基本原理是啥?
STT概述。首先使用检测编码器来编码所有的3D检测,并提取每个轨迹的时间特征。这些时间特征被馈送到轨迹-检测交互模块中,以聚合周围检测的信息,并为每个轨迹生成关联分数和预测状态。轨迹状态解码器还利用时间特征来生成前一帧(t-1)中的轨迹状态。所有模块都是联合优化的。
6. 实验结果
为了展示STT模型的有效性,将其与Waymo开放数据集上发表的最新方法进行比较。大多数3D MOT算法采用检测跟踪范式,每个算法都使用不同的检测骨干来进行跟踪算法。由于STT是一种有状态的跟踪器,可以与任意检测模型一起使用,需要将其与使用与STT相同检测模型的跟踪方法进行比较。首先将STT与这些最新方法以及KF基线在Waymo开放数据集的官方3D跟踪指标上进行比较。这些指标包括MOTA、MOTP、假阳性(FP)、假阴性(FN)和不匹配(标识切换)。结果如表I所示。STT在车辆类型上的MOTA得分比KF基线高出+1.7分,而在其他指标上则与之持平,这表明在STT的学习过程中包含状态估计的好处。需要注意的是,由于两种方法使用了不同的截止分数,KF和STT模型的漏检率略有不同。KF基线的良好性能还表明,这些官方指标在很大程度上依赖于检测的质量。一个简单的跟踪器可以通过使用更强的物体检测器(例如我们的KF基线与CenterPoint的比较)来实现比其他经过高度调整的方法更好的性能。
为了展示STT在状态估计上的优势,进一步使用有状态度量S-MOTA对其进行了比较,如表I所示。这个度量要求预测/地面实况匹配具有足够高的预测速度和加速度质量。车辆的速度和加速度阈值分别设置为1.0m/s和1.0m/s²,行人的速度和加速度阈值分别设置为0.5m/s和0.5m/s²。STT的SMOTA得分比KF基线分别高出13.4分,这表明尽管STT的性能在数据关联指标上接近KF基线,但在状态估计上却明显优于KF模型。这个结果也表明,S-MOTA度量对于区分在MOTA结果中具有类似关联质量的方法是有用的。
为了评估推理时间,使用XLA对STT模型进行编译,使用Nvidia PG189 GPU,单独对STT进行推理的时间为2.9毫秒,可以实现端到端跟踪的实时性能。
MOTPS结果为了进一步了解STT对状态估计的改进,报告了STT和两个基线的MOTPS指标结果:i) 卡尔曼滤波器,和ii) SWFormer+State Head(SH),其中向原始SWFormer检测器添加了一个状态头来预测每个检测到的框的速度和加速度。这三种方法都使用相同的检测模型,这消除了检测质量的影。如表II所示,与两个基线相比,STT模型在总体状态估计结果方面表现最佳。在速度估计方面,令人惊讶的是,SWFormer+SH是静态对象的最佳状态估计器,但STT对于移动对象的性能更好。SWFormer+SH还产生了| MOTPvelocity |的最高值,而STT的值最低,表明SWFormer+SH在静态对象上的优越性能可能是由于过拟合。另一方面,KF基线在静态对象的状态预测上表现不佳,但在移动对象上可以取得不错的性能。这可能是因为静态对象的微小抖动会在KF状态估计中产生较大的噪声,而基于学习的方法对此更加鲁棒。
STT的相对收益在加速度估计方面更为突出。STT对于移动对象的加速度最佳,对于静态对象与SWFormer+SH的性能相当。与两个基线相比,STT具有最低的方差,如|MOTPacceleration|所反映的那样。加速度作为二阶统计量更具挑战性。因此,模型必须能够稳健地处理小噪声,并有效地推断长期运动。STT具备这两种品质,其鲁棒性和一致性体现在指标结果中。
消融研究。STT的关键创新之一是其统一的学习框架,它同时优化数据关联和状态估计任务。为了验证联合优化状态估计的声明,创建了一个仅使用数据关联损失进行训练的STT基线。结果报告在表III的前两行中。通过状态估计和数据关联的联合优化,STT在车辆和行人类别的MOTA分别提高了+1.8和+4。从STT获得的这两个类别的SMOTA改进分别为+17.1和+42.1。这些结果表明数据关联和状态估计是高度互补的任务,应该进行联合优化。
长期的时间建模可以提高数据关联质量和更精确的状态估计。为了验证时间特征对跟踪性能的影响,评估了具有不同轨迹历史长度的STT。如表III的第3到第6行所示的结果表明,更长的轨迹历史可以导致更好的跟踪性能。随着轨迹历史长度增加到5,MOTA得分也会增加,之后就会饱和。然而,即使对于轨迹历史长度为20的情况,S-MOTA得分仍然持续大幅增加。这表明长期时间建模对数据关联和状态估计任务至关重要。
7. 总结 & 未来工作
这篇文章提出了STT,这是一种基于Transformer的模型,它在一个模型中同时进行数据关联和状态估计。STT强调了这种联合估计任务对自动驾驶的重要性,这需要对三维实际空间中的对象进行一致的跟踪和准确的状态估计。为了解决现有评估方法的局限性,将MOTA指标扩展到S-MOTA,它在评估关联质量时强制考虑了状态估计质量,并将MOTP扩展到MOTPs,它捕获了对象的更广泛的运动状态。评估结果表明,STT在Waymo开放数据集上具有竞争力的结果,并在状态估计方面表现出色。我们希望我们提出的解决方案和扩展的度量标准能够促进这一领域的未来工作。
-
机器人
+关注
关注
211文章
28405浏览量
207017 -
自动驾驶
+关注
关注
784文章
13804浏览量
166427 -
多目标跟踪
+关注
关注
0文章
5浏览量
7667 -
Transformer
+关注
关注
0文章
143浏览量
6000
原文标题:ICRA'24 | STT:全面提升自动驾驶中的多目标跟踪!
文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论