ECCV2018目标检测（object detection）算法总览

转自大神翻译的文章，详细请转看

https://blog.csdn.net/u014380165/article/details/82025720

这篇博客记录我个人比较感兴趣的ECCV2018关于目标检测（object detection）的一些文章。

1、IOU-Net
论文：Acquisition of Localization Confidence for Accurate Object Detection
论文链接：https://arxiv.org/abs/1807.11590
详细博客介绍：IOU-Net 算法笔记

这篇ECCV2018的文章个人非常喜欢，我们知道在目标检测算法中最后一般都会通过NMS算法移除重复预测框，移除的依据是预测框的分类得分（classification confidence，也就是softmax层的概率输出），但是这种依据并不能很好地表征预测框的准确性，换句话说对于同一个ground truth而言，分类得分高的预测框并不一定比分类得分低的预测框好，这样就容易导致那些分类得分低，但是坐标和ground truth更接近，也就是坐标回归更准确的预测框在NMS阶段被过滤掉，导致最终指标的下降。因此这篇文章就提出IOU-Net，通过预测检测框和ground truth的IOU来解决这2个问题：1、提出IOU-guided NMS，也就是在NMS阶段引入回归得分（localization confidence）作为排序指标而不是采用传统的分类得分。2、提出optimization-based bbox refinement替换传统的regression-based方法，提高了回归部分的可解释性。另外这篇文章还提出了Precise ROI Pooling（PrROI Pooling），通过积分方式计算ROI特征使得前向计算的误差进一步降低，同时反向传播时基于连续输入值计算梯度使得反向传播连续可导，相比之下ROI Pooling和ROI Align由于采用量化或几个点插值方式求ROI特征，不可避免地带来一些噪声，而且在反向求导时只对特定输入回传梯度。

Figure1是关于这篇文章出发点的介绍。
ECCV2018目标检测（object detection）算法总览

2、DetNet
论文：DetNet: A Backbone network for Object
链接：https://arxiv.org/abs/1804.06215
详细博客介绍：DetNet 算法笔记

这篇ECCV2018关于目标检测的文章，主要是对检测算法的特征提取网络（backbone）做优化。我们知道目前大部分的目标检测算法在训练时都会用预训练的分类模型来提取特征，这些预训练模型是在ImageNet数据集上训练得到的，众多的实验也证明了这种做法的有效性。而DetNet这篇文章相当于研究更加有效的特征提取网络，出发点也非常直接，主要包含两点：1、分类任务和检测任务还是有一定差别的，因此用分类数据上训练的分类模型来提取特征用于检测任务不一定合适，比如检测任务比较关注目标的尺度特征，但是分类任务就不一定了。2、检测任务不仅仅要做目标的分类，而且要做目标的定位，这样的差异容易导致一些问题，比如在分类网络中常用的降采样操作可能对分类有效，因为增大了感受野，但是对于需要定位目标的检测任务而言就不一定有利，因为丢失了目标的位置信息。因此DetNet的提出主要也是针对这两个出发点，换句话说是设计了一个专门用于目标检测算法的特征提取网络，主要改进点包括：1、增加网络高层输出特征的分辨率，换句话说就是高层不对特征图做尺寸缩减。2、引入dilated卷积层增加网络高层的感受野，这是因为第一个改进点引起的感受野减小。3、减小网络高层的宽度，减少因增大分辨率带来的计算量。

Figure1是第1个改进点。
ECCV2018目标检测（object detection）算法总览

Figure2是关于第2、3个改进点。
ECCV2018目标检测（object detection）算法总览

3、RFB Net
论文：Receptive Field Block Net for Accurate and Fast Object Detection
论文链接：https://arxiv.org/abs/1711.07767
代码链接：https://github.com/ruinmessi/RFBNet
详细博客介绍：RFB Net算法笔记

这篇是ECCV2018关于目标检测的文章，提出了RFB Net网络用于目标检测，可以在兼顾速度的同时达到良好的效果。该网络主要在SSD网络中引入Receptive Field Block (RFB) ，引入RFB的出发点通过模拟人类视觉的感受野加强网络的特征提取能力，在结构上RFB借鉴了Inception的思想，主要是在Inception的基础上加入了dilated卷积层（dilated convolution），从而有效增大了感受野（receptive field）。整体上因为是基于SSD网络进行改进，所以检测速度还是比较快，同时精度也有一定的保证。

RFB结构如Figure4所示。
ECCV2018目标检测（object detection）算法总览