常见经典目标检测算法：R-CNN、SPP-Ne

要长高 2022-12-06 2418

描述

　　目标检测是指在视频或图片序列中把感兴趣的目标与背景区分，是在图像中确定目标是否存在且确定目标位置的过程，是计算机视觉领域中的主要研究方向。

　　目标检测主要应用于人脸识别、无人驾驶、指控和安防等领域，起到人工智能赋能传统应用的作用。目标检测的核心是算法。目前，目标检测算法主要分为两大类，第一类是基于手工设计特征的传统算法，第二类是基于深度学习的目标检测算法。

　　常见经典目标检测算法

　　经典目标检测算法有R-CNN、SPP-Net、Fast R-CNN和R-FCN等。

　　R-CNN：在CVPR 2014年中Ross Girshick提出R-CNN。R-CNN的全称是Region-CNN，是第一个成功将深度学习应用到目标检测上的算法。用CNN提取出Region Proposals中的featues，然后进行SVM分类与bbox的回归。

　　完整R-CNN结构是不使用暴力方法，而是用候选区域方法（region proposal method），创建目标检测的区域改变了图像领域实现物体检测的模型思路，R-CNN是以深度神经网络为基础的物体检测的模型，R-CNN在当时以优异的性能令世人瞩目，以R-CNN为基点，后续的SPPNet、Fast R-CNN、Faster R-CNN模型都是照着这个物体检测思路。

　　SPP-Net：SPP-Net是一种可以不用考虑图像大小，输出图像固定长度网络结构，并且可以做到在图像变形情况下表现稳定。SPP-net的效果已经在不同的数据集上面得到验证，速度上比R-CNN快24-102倍。SPPNet在R-CNN的基础上提出了改进，通过候选区域和Feature，map的映射，配合SPP层的使用从而达到了CNN层的共享计算，减少了运算时间，后面的FastR-CNN等也是受SPPNet的启发。

　　Fast R-CNN：FastR-CNN的训练速度是R-CNN的9倍，测试速度是R-CNN的213倍；即使和SPP-Net相比，Fast R-CNN的训练速度和测试速度，也分别有了3倍和10倍的提升。相比R-CNN，Fast RCNN仍然使用selective search选取2000个建议框，但是这里不是将这么多建议框都输入卷积网络中，而是将原始图片输入卷积网络中得到特征图，再使用建议框对特征图提取特征框。这样做的好处是，原来建议框重合部分非常多，卷积重复计算严重，而这里每个位置都只计算了一次卷积，大大减少了计算量。

　　R-FCN：R-FCN，全称为“Region-based fully convolutional network”。

　　R-FCN的网络结构如下图，同Faster RCNN比起来，它有２点不同。

　　（１）Shared convolutional subnetwork不同。Faster RCNN是把RPN得到的RoI直接映射到Resnet101的最后一个卷积层（2048个channels），而R-FCN将Resnet101的最后一个卷积层映射到具有个channels的特征层，作者将该特征层称之为“position-sensitive score maps”，然后把RoI映射到该特征层；

　　（２）RoI-wise subnetwork不同。Faster RCNN的subnetwork经过了全连接层做特征组合，然后执行分类和坐标回归的双任务，R-FCN基于pool和vote操作后得到的特征向量，执行分类任务。

　　文章综合信息安全与通信保密杂志社，位俊超，江南綿雨，博客园，Drift，diligent_321

打开APP阅读更多精彩内容