使用STT全面提升自动驾驶中的多目标跟踪-电子发烧友网

来源：3D视觉工坊

0. 这篇文章干了啥？

3D多目标跟踪（3D MOT）在各种机器人应用中发挥着关键作用，例如自动驾驶车辆。为了在驾驶时避免碰撞，机器人汽车必须可靠地跟踪道路上的物体，并准确估计它们的运动状态，例如速度和加速度。尽管近年来3D MOT的发展取得了很大进展，但大多数方法仍然使用近似的物体状态作为数据关联的中间特征，而不是明确地优化模型在状态估计上的性能。尽管存在一些跟踪方法，它们通过采用基于滤波器的算法（如卡尔曼滤波器（KF））来预测运动状态，但它们通常通过复杂的启发式规则来估计物体状态，并且无法以数据驱动的方式轻松利用外观特征或原始传感器测量值。虽然有一些基于机器学习的方法将预测头添加到检测模型中以估计运动状态，但由于计算和内存限制，它们往往无法从长期时间信息中产生一致的轨迹。

为了解决现有方法的局限性，这篇文章引入了STT，一种带有Transformer的状态跟踪模型，它将数据关联和状态估计结合到一个单一模型中。模型架构的核心是一个执行数据关联的Track-Detection Interaction（TDI）模块，该模块通过学习轨迹与其周围检测之间的交互来执行数据关联，以及一个Track State Decoder（TSD）模块，它产生轨迹的状态估计。

所有模块都是联合优化的，这使得STT能够在简化系统复杂性的同时获得优越的性能。现有的跟踪评估主要使用多目标跟踪准确度（MOTA）和多目标跟踪精度（MOTP）来衡量关联和定位质量，但它们不考虑其他状态的质量，例如速度和加速度。为了明确捕捉跟踪性能的全面状态估计质量，将现有的评估指标MOTA扩展为Stateful MOTA（S-MOTA），它在标签预测匹配期间强制进行准确的状态估计，将MOTP扩展为MOTPS，它适用于任意状态变量，以便评估位置以外的状态估计质量。

2. 摘要

在自动驾驶中，追踪三维空间中的物体至关重要。为了在驾驶时确保安全，追踪器必须能够可靠地跟踪物体跨帧，并准确地估计它们的状态，如当前的速度和加速度。现有的工作经常专注于关联任务，而忽略了模型在状态估计上的性能，或者部署复杂的启发式方法来预测状态。在本文中，我们提出了STT，一种使用Transformer构建的具有状态的跟踪模型，它可以在场景中始终可靠地跟踪物体，同时准确地预测它们的状态。STT通过长期历史的检测消耗丰富的外观、几何和运动信号，并针对数据关联和状态估计任务进行联合优化。由于标准的跟踪指标如MOTA和MOTP不能捕捉到在更广泛的物体状态范围内这两个任务的综合性能，我们使用称为S-MOTA和MOTPS的新指标来扩展它们，以解决这一局限性。STT在Waymo Open Dataset上实现了具有竞争力的实时性能。

3. S-MOTA

S-MOTA度量的示意图。MOTA只考虑了标签预测匹配中的欠条，而没有揭示状态误差（例如，图中所示的速度误差）。S-MOTA通过额外的阈值化步骤来评估预测状态的准确性，从而解决了这一限制。

4. 主要贡献

为了展示STT模型的有效性，作者在大规模Waymo Open Dataset（WOD）上进行了大量实验。STT在扩展的S-MOTA和MOTPS指标上取得了58.2的MOTA竞争性表现和最新的结果。总体贡献总结如下：

1提出了一种3D MOT跟踪器，它可以在一个可训练的模型中跟踪对象并估计其运动状态。

2）我将现有的评估指标扩展为S-MOTA和MOTPS，以评估跟踪性能，明确考虑状态估计的质量。

3）提出的模型在标准指标和Waymo Open Dataset上的新扩展指标上的基准模型上取得了改进的性能和最新的结果。

5. 基本原理是啥？

STT概述。首先使用检测编码器来编码所有的3D检测，并提取每个轨迹的时间特征。这些时间特征被馈送到轨迹-检测交互模块中，以聚合周围检测的信息，并为每个轨迹生成关联分数和预测状态。轨迹状态解码器还利用时间特征来生成前一帧（t-1）中的轨迹状态。所有模块都是联合优化的。

6. 实验结果

为了展示STT模型的有效性，将其与Waymo开放数据集上发表的最新方法进行比较。大多数3D MOT算法采用检测跟踪范式，每个算法都使用不同的检测骨干来进行跟踪算法。由于STT是一种有状态的跟踪器，可以与任意检测模型一起使用，需要将其与使用与STT相同检测模型的跟踪方法进行比较。首先将STT与这些最新方法以及KF基线在Waymo开放数据集的官方3D跟踪指标上进行比较。这些指标包括MOTA、MOTP、假阳性（FP）、假阴性（FN）和不匹配（标识切换）。结果如表I所示。STT在车辆类型上的MOTA得分比KF基线高出+1.7分，而在其他指标上则与之持平，这表明在STT的学习过程中包含状态估计的好处。需要注意的是，由于两种方法使用了不同的截止分数，KF和STT模型的漏检率略有不同。KF基线的良好性能还表明，这些官方指标在很大程度上依赖于检测的质量。一个简单的跟踪器可以通过使用更强的物体检测器（例如我们的KF基线与CenterPoint的比较）来实现比其他经过高度调整的方法更好的性能。

为了展示STT在状态估计上的优势，进一步使用有状态度量S-MOTA对其进行了比较，如表I所示。这个度量要求预测/地面实况匹配具有足够高的预测速度和加速度质量。车辆的速度和加速度阈值分别设置为1.0m/s和1.0m/s²，行人的速度和加速度阈值分别设置为0.5m/s和0.5m/s²。STT的SMOTA得分比KF基线分别高出13.4分，这表明尽管STT的性能在数据关联指标上接近KF基线，但在状态估计上却明显优于KF模型。这个结果也表明，S-MOTA度量对于区分在MOTA结果中具有类似关联质量的方法是有用的。

为了评估推理时间，使用XLA对STT模型进行编译，使用Nvidia PG189 GPU，单独对STT进行推理的时间为2.9毫秒，可以实现端到端跟踪的实时性能。

MOTPS结果为了进一步了解STT对状态估计的改进，报告了STT和两个基线的MOTPS指标结果：i) 卡尔曼滤波器，和ii) SWFormer+State Head（SH），其中向原始SWFormer检测器添加了一个状态头来预测每个检测到的框的速度和加速度。这三种方法都使用相同的检测模型，这消除了检测质量的影。如表II所示，与两个基线相比，STT模型在总体状态估计结果方面表现最佳。在速度估计方面，令人惊讶的是，SWFormer+SH是静态对象的最佳状态估计器，但STT对于移动对象的性能更好。SWFormer+SH还产生了| MOTPvelocity |的最高值，而STT的值最低，表明SWFormer+SH在静态对象上的优越性能可能是由于过拟合。另一方面，KF基线在静态对象的状态预测上表现不佳，但在移动对象上可以取得不错的性能。这可能是因为静态对象的微小抖动会在KF状态估计中产生较大的噪声，而基于学习的方法对此更加鲁棒。

STT的相对收益在加速度估计方面更为突出。STT对于移动对象的加速度最佳，对于静态对象与SWFormer+SH的性能相当。与两个基线相比，STT具有最低的方差，如|MOTPacceleration|所反映的那样。加速度作为二阶统计量更具挑战性。因此，模型必须能够稳健地处理小噪声，并有效地推断长期运动。STT具备这两种品质，其鲁棒性和一致性体现在指标结果中。

消融研究。STT的关键创新之一是其统一的学习框架，它同时优化数据关联和状态估计任务。为了验证联合优化状态估计的声明，创建了一个仅使用数据关联损失进行训练的STT基线。结果报告在表III的前两行中。通过状态估计和数据关联的联合优化，STT在车辆和行人类别的MOTA分别提高了+1.8和+4。从STT获得的这两个类别的SMOTA改进分别为+17.1和+42.1。这些结果表明数据关联和状态估计是高度互补的任务，应该进行联合优化。

长期的时间建模可以提高数据关联质量和更精确的状态估计。为了验证时间特征对跟踪性能的影响，评估了具有不同轨迹历史长度的STT。如表III的第3到第6行所示的结果表明，更长的轨迹历史可以导致更好的跟踪性能。随着轨迹历史长度增加到5，MOTA得分也会增加，之后就会饱和。然而，即使对于轨迹历史长度为20的情况，S-MOTA得分仍然持续大幅增加。这表明长期时间建模对数据关联和状态估计任务至关重要。

7. 总结 & 未来工作

这篇文章提出了STT，这是一种基于Transformer的模型，它在一个模型中同时进行数据关联和状态估计。STT强调了这种联合估计任务对自动驾驶的重要性，这需要对三维实际空间中的对象进行一致的跟踪和准确的状态估计。为了解决现有评估方法的局限性，将MOTA指标扩展到S-MOTA，它在评估关联质量时强制考虑了状态估计质量，并将MOTP扩展到MOTPs，它捕获了对象的更广泛的运动状态。评估结果表明，STT在Waymo开放数据集上具有竞争力的结果，并在状态估计方面表现出色。我们希望我们提出的解决方案和扩展的度量标准能够促进这一领域的未来工作。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28405

浏览量
207017
自动驾驶

自动驾驶

+关注

关注
784

文章
13804

浏览量
166427
多目标跟踪

多目标跟踪

+关注

关注
0

文章
5

浏览量
7667
Transformer

Transformer

+关注

关注
0

文章
143

浏览量
6000

原文标题：ICRA'24 | STT：全面提升自动驾驶中的多目标跟踪！

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

FPGA在自动驾驶领域有哪些应用？

是FPGA在自动驾驶领域的主要应用：一、感知算法加速图像处理：自动驾驶中需要通过摄像头获取并识别道路信息和行驶环境，这涉及到大量的图像处理任务。FPGA在处理图像上的运算速度快，可并行性强，且功耗

发表于 07-29 17:09

【话题】特斯拉首起自动驾驶致命车祸，自动驾驶的冬天来了？

自动驾驶技术已经有足够积累，虽然还不完美无缺，但是可以投入商用，科技都是在使用中完善的，不能一遭被蛇咬，十年怕井绳，难道发生一次空难之后，以后飞机就停飞啦？技术流朋友，更加关注问题本身，有什么技术手段可以解决此类问题？对于这个问题，公说公有理婆说婆有理，元芳，你怎么看?

发表于 07-05 11:14

自动驾驶真的会来吗？

自动驾驶原理示意GIF图　　特斯拉自动驾驶死亡事故给全世界带来了极大的震惊，但这并不意味着基于坏消息之上的关注全然没有正面意义。　　在接受新浪科技采访中，多位硅谷相关人士告诉新浪科技：一方面是对于

发表于 07-21 09:00

自动驾驶的到来

的Telematics收发芯片，非常适合V2V及V2X等相关应用中。　　相比于传统的底盘、发动机等传统汽车技术，自动驾驶更多的技术集中在电子领域，而且核心技术并没有被跨国车厂或Tier1所垄断。并且

发表于 06-08 15:25

如何让自动驾驶更加安全？

自动驾驶、完全自动驾驶。第四级别是汽车驾驶自动化、智能化程度最高级别，也就是通常所说的无人驾驶。现实中

发表于 05-13 00:26

自动驾驶汽车的处理能力怎么样？

作在未来20 - 30年中，自动驾驶汽车（AV）将改变我们的驾驶习惯、运输行业并更广泛地影响社会。我们不仅能够将汽车召唤到我们的家门口并在使用后将其送走，自动驾驶汽车还将挑战个人拥有

发表于 08-07 07:13

自动驾驶汽车中传感器的分析

特斯拉在五月份发生的自动驾驶事故，和最近在Defcon上演示的如何干扰传感器，都充分说明了传感器在自动驾驶中的重要性：环境感知是自动驾驶实现的基础，如果不能正确地感知周围环境，那么接下

发表于 05-14 07:34

网联化自动驾驶的含义及发展方向

，自动驾驶车辆在道路上行驶，同向行驶的多辆汽车可组成车队，车队成员间、车队与外部的信息实时共享，保证高效可靠的编队行驶。车队中的车辆可以保持较小的车间距离，并以固定的速度行驶。编队行驶可以提升交通效率，有效

发表于 01-12 15:42

自动驾驶车辆中AI面临的挑战

自动驾驶车辆中采用的AI算法自动驾驶车辆中AI面临的挑战

发表于 02-22 06:39

存储如何提升自动驾驶汽车的可靠性看了就知道

更智能的存储如何提升自动驾驶汽车的可靠性

发表于 03-10 07:01

新技术可有效地使用目标检测的对抗示例欺骗多目标跟踪

对抗机器学习的最新研究开始关注自主驾驶中的视觉感知，并研究了目标检测模型的对抗示例。然而在视觉感知管道中，在被称为多目标

发表于 02-01 11:01 •3089次阅读

多目标跟踪过程中的数据关联技术综述

和多目标跟踪，其中单目标跟踪相对简单，除了需要解决与多目标跟踪共性的问题（如遮挡、形变等）外，单

发表于 05-08 16:27 •2次下载

基于MobileNet的多目标跟踪深度学习算法

针对深度学习算法在多目标跟踪中的实时性问题, 提出一种基于MobileNet的多目标跟踪算法. 借助于MobileNet深度可分离卷积能够对

发表于 11-09 10:23 •1083次阅读

自动驾驶路径跟踪控制的种类

行为决策在自动驾驶系统架构中的位置 Claudine Badue等人以圣西班牙联邦大学（UFES）开发的自动驾驶汽车（Intelligent Autonomous Robotics

发表于 11-10 17:30 •724次阅读

多目标跟踪算法总结归纳

多目标跟踪是计算机视觉领域中的一个重要任务，它旨在从视频或图像序列中准确地检测和跟踪多个移动目标。不过在落地部署时，有一些关键点需要解决。

发表于 04-28 09:42 •1872次阅读

搜索历史

使用STT全面提升自动驾驶中的多目标跟踪

评论

FPGA在自动驾驶领域有哪些应用？

【话题】特斯拉首起自动驾驶致命车祸，自动驾驶的冬天来了？

自动驾驶真的会来吗？

自动驾驶的到来

如何让自动驾驶更加安全？

自动驾驶汽车的处理能力怎么样？

自动驾驶汽车中传感器的分析

网联化自动驾驶的含义及发展方向

自动驾驶车辆中AI面临的挑战

存储如何提升自动驾驶汽车的可靠性看了就知道

新技术可有效地使用目标检测的对抗示例欺骗多目标跟踪

多目标跟踪过程中的数据关联技术综述

基于MobileNet的多目标跟踪深度学习算法

自动驾驶路径跟踪控制的种类

多目标跟踪算法总结归纳