目标检测之SSD

一、目标检测之SSD

SSD: Single Shot MultiBox Detector

论文链接：https://arxiv.org/abs/1512.02325
论文翻译：https://blog.csdn.net/denghecsdn/article/details/77429978
论文详解：https://blog.csdn.net/WZZ18191171661/article/details/79444217
论文代码：https://github.com/balancap/SSD-Tensorflow

二、SSD算法

1、整体框架

图1：

图2：
目标检测之SSD
算法步骤：

1、输入一幅图片（300x300），将其输入到预训练好的分类网络中来获得不同大小的特征映射，修改了传统的VGG16网络；

将VGG16的FC6和FC7层转化为卷积层，如图1上的Conv6和Conv7；
去掉所有的Dropout层和FC8层；
添加了Atrous算法（hole算法）；
将Pool5从2x2-S2变换到3x3-S1；

2、抽取Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2层的feature map，然后分别在这些feature map层上面的每一个点构造6个不同尺度大小的bbox，然后分别进行检测和分类，生成多个bbox，如图2所示；

3、将不同feature map获得的bbox结合起来，经过NMS（非极大值抑制）方法来抑制掉一部分重叠或者不正确的bbox，生成最终的bbox集合（即检测结果）；

2、算法细节

（1）多尺度特征映射

SSD算法中使用到了conv4_3,conv_7，conv8_2,conv7_2,conv8_2,conv9_2,conv10_2,conv11_2这些大小不同的feature maps，其目的是为了能够准确的检测到不同尺度的物体，因为在低层的feature map,感受野比较小，高层的感受野比较大，在不同的feature map进行卷积，可以达到多尺度的目的。

Why?：我们将一张图片输入到一个卷积神经网络中，经历了多个卷积层和池化层，我们可以看到在不同的卷积层会输出不同大小的feature map（这是由于pooling层的存在，它会将图片的尺寸变小），而且不同的feature map中含有不同的特征，而不同的特征可能对我们的检测有不同的作用。总的来说，浅层卷积层对边缘更加感兴趣，可以获得一些细节信息，而深层网络对由浅层特征构成的复杂特征更感兴趣，可以获得一些语义信息，对于检测任务而言，一幅图像中的目标有复杂的有简单的，对于简单的patch我们利用浅层网络的特征就可以将其检测出来，对于复杂的patch我们利用深层网络的特征就可以将其检测出来，因此，如果我们同时在不同的feature map上面进行目标检测，理论上面应该会获得更好的检测效果。

（2）Defalut box
目标检测之SSD
如上图所示，在特征图的每个位置预测K个bbox，对于每一个bbox，预测C个类别得分，以及相对于Default box的4个偏移量值，这样总共需要 (C+4)×K个预测器，则在m×n的feature map上面将会产生 (C+4)×K×m×n个预测值。

分析：
目标检测之SSD
SSD中的Defalut box和Faster-rcnn中的anchor机制很相似。就是预设一些目标预选框，后续通过softmax分类+bounding box regression获得真实目标的位置。对于不同尺度的feature map 上使用不同的Default boxes。如上图所示，我们选取的feature map包括38x38x512、19x19x1024、10x10x512、5x5x256、3x3x256、1x1x256，Conv4_3之后的feature map默认的box是4个，我们在38x38的这个平面上的每一点上面获得4个box，那么我们总共可以获得38x38x4=5776个；同理，我们依次将FC7、Conv8_2、Conv9_2、Conv10_2和Conv11_2的box数量设置为6、6、6、4、4，那么我们可以获得的box分别为2166、600、150、36、4，即我们总共可以获得8732个box，然后我们将这些box送入NMS模块中，获得最终的检测结果。

Defalut box生成规则：

以feature map上每个点的中点为中心（offset=0.5），生成一系列同心的Defalut box（然后中心点的坐标会乘以step，相当于从feature map位置映射回原图位置）
使用m(SSD300中m=6)个不同大小的feature map 来做预测，最底层的 feature map 的 scale 值为 Smin=0.2，最高层的为Smax=0.95，其他层通过下面的公式计算得到：
使用不同的ratio值，[1, 2, 3, 1/2, 1/3]，通过下面的公式计算 default box 的宽度w和高度h
而对于ratio=0的情况，指定的scale如下所示，即总共有 6 中不同的 default box。

（3）Loss

loss函数分为两部分：计算相应的default box与目标类别的confidence loss以及相应的位置回归。
目标检测之SSD
其中N是match到Ground Truth的default box数量；而alpha参数用于调整confidence loss和location loss之间的比例，默认alpha=1。