前言

  我很长一段时间一直都在做自动驾驶的物体检测性能调优,所以想总结整理一些小网络和检测框架的经验。

  文章会分成三个部分:

  第一部分将参照知乎@YaqiLYU 对小网络(经典网络)的分析并且结合的自己的理解。

  第二部分详细介绍目前state-of-art的主流检测框架。

       第三部分介绍了目标检测的问题及解决方案,目标检测在其他领域的拓展应用 

2. 解决方案

本部分针对小物体检测、不规则形状物体检测、检测算法中正负样本不均衡问题、物体被遮挡、检测算法的mini-batch过小、物体之间的关联信息被忽略等问题提出了解决方案。在这个部分最后本篇综述将介绍四篇改进网络结构以提升检测效果(包括准确率和速度)的论文,如改进基础网络以提升准确率的DetNet和针对移动端优化速度的Pelee网络等。

2.1 小物体检测

2.1.1 Feature Pyramid Networks for Object Detection

论文链接:https://arxiv.org/abs/1612.03144

开源代码:https://github.com/unsky/FPN

录用信息:CVPR2017

论文目标:

引入Top-Down 结构提升小物体检测效果。

核心思想:

Feature Pyramid Networks (FPN) 是比较早提出利用多尺度特征和Top-Down结构做目标检测的网络结构之一,虽然论文中整个网络是基于Faster R-CNN 检测算法构建,但其整体思想可以广泛适用于目前常见的大部分目标检测算法甚至分类等的其他任务中。

整体来讲, FPN 解决的问题如下:只用网络高层特征去做检测,虽然语义信息比较丰富,但是经过层层pooling等操作,特征丢失太多细节信息,对于小目标检测这些信息往往是比较重要的。所以,作者想要将语义信息充分的高层特征映射回分辨率较大、细节信息充分的底层特征,将二者以合适的方式融合来提升小目标的检测效果。

目标检测框架网络模型分析(三 王者归来)

上图中作者首先介绍了四种常见的特征利用的方式,这里我们一一说明。图中a部分展示了利用图像特征金字塔的方式做预测的方法,即通过将预测图片变换为不同尺寸的图片输入网络,得到不同尺寸的特征进行预测。这种方法行之有效,可以提升对各个尺寸目标的检测效果。

目标检测框架网络模型分析(三 王者归来)

上图是imageNet 数据集中各个物体的尺寸分布,可以看到大部分物体尺寸集中在40-140像素之间。当我们采用imageNet 的pretrain参数初始化我们的基础网络时,网络实际上对40-140像素间的物体是较为敏感的。所以当物体目标过大过小的时候效果都会打折扣。而图像多尺度金字塔预测的方法也解决了这一问题。这个方法虽然行之有效但是缺点是效率低下。尤其是应用于类似于Faster R-CNN 这样的网络,迫于速度和显存的压力,端对端的训练难以实现。通常这种方法只应用于网络预测的阶段

图中b部分展示的方法为利用单一尺度图片的最高层信息进行预测的方法,是平时最广泛被使用的一种方法,简单高效。但是缺点是由于尺度单一,应对多尺度的目标效果受限。

 图中c部分展示了利用特征金字塔来做预测的方法。即采用不同尺寸不同深度的特征层分别进行预测,每层的感受野和特征信息的丰富程度都不一样,对不同尺寸的目标响应也有所区别。其中高层特征更适合用于检测大目标,而低层特征细节信息更加丰富,感受野也偏小,更适合用于检测小目标。我们经常使用的SSD检测算法即使用了这种思路。该方法的缺点是低层的特征信息因为层数较浅,语义信息不太丰富,所以小目标的检测效果仍然不尽如人意。

图中d部分即为FPN的解决方案,利用Top-Down结构,融合了高层和底层的特征信息,使得底层的语义信息仍然很丰富的同时保持较大的分辨率,提升小物体的检测效果。

目标检测框架网络模型分析(三 王者归来)

目标检测框架网络模型分析(三 王者归来)

 

上图展示了FPN网络的特征融合方式,其中高层特征通过最近邻差值的方式增大两倍的尺寸,而底层的特征经过一个1*1的卷积做降维操作,这两层特征分别作像素级的相加完成融合。融合之后的特征可以经过一个3*3的卷积层之后输入用来预测,也可以再重复上面的操作,和更低层的特征进行融合。

算法效果:

目标检测框架网络模型分析(三 王者归来)

 

上图展示了各个算法在COCO数据集上的对比。

 

2.1.2 Beyond Skip Connections Top Down Modulation for Object Detection

论文链接:https://arxiv.org/abs/1612.06851

开源代码:无

录用信息:CVPR2017

论文目标:

1. 有效利用网络前层信息。使其既包含小物体细节信息,又包含高层抽象语义信息,提高小物体召回率。

2. 避免直接特征叠加导致维度过高。

核心思想:

本文是Google 对标Facebook FPN的一个算法,用与FPN不同的方式实现了Top Down结构,主要是为了融合低层的细节特征和高层语义特征来提升小物体检测效果的一个方法。

本论文提出的Top Down modulation的结构主要关键点在于modulation这一过程,在该算法中,高底层的信息融合不是像FPN一样像素级叠加,而是通过卷积进行融合。由神经网络自主的选择选择哪些特征进行融合,实现这一“调制”过程。

一、整体网络结构:

 目标检测框架网络模型分析(三 王者归来)

首先对自下而上的CNN网络加入一个自上而下的Top Down网络,使用 lateral connections连接起来。通过这些connections 筛选合适的特征,通过Top Down 网络进行特征融合。

二、Top Down Modulation (TDM)网络基础模块:

未完