One-stage目标检测最强算法 ExtremeNet翻译【Bottom-up Object Detection by Grouping Extreme and Center Points】

点击源码下载

Abstract

随着深度学习的出现，目标检测从一个自底而上的问题发展到一个自上而下的识别问题。最先进的算法列举了一个几乎详尽的目标对象位置列表，并将每个位置分类为:目标对象或非目标对象。在本文中，我们展示了自底向上方法仍然具有竞争力。我们使用标准关键点估计网络检测对象的四个极点(最上面、最左边、最下面、最右边)和一个中心点。如果这五个关键点是几何对齐的，我们将它们分组到一个边界框中。因此，目标检测是一个纯粹的基于外观的关键点估计问题，没有区域分类和隐式特征学习。该方法的性能与最先进的基于区域检测方法相当，在COCO test-dev上的box AP为43:2%。此外，我们估计的极点直接生成一个粗糙的八边形掩模，在COCO上Mask AP为18:9%，比vanilla bbox的Mask AP要好得多。极点引导分割进一步改善这到34:6%的Mask AP。

1. Introduction

自上而下的算法目前在目标检测领域占据主导地位，常用的做法是将目标检测任务转化为矩形区域分类任务，如one stage检测和two stage检测。然而，矩形框（box）并不是一个比较好的对象表示，主要有一下三个缺点：

①大多数的目标对象不是轴对称的，它们的外接矩形框包含许多不必要的背景信息（图1）；

②自上而下的目标检测算法罗列了大量可能的矩形框位置，并没有真正理解目标图片的视觉语法信息；

③矩形框不能很好的表示目标对象，难以表示目标对象的细节信息（如形状和姿势）

One-stage目标检测最强算法 ExtremeNet翻译【Bottom-up Object Detection by Grouping Extreme and Center Points】

图1

通过检测对象的四个极点（最上、最左，最底、最右），本文提出了一种自底而上的目标检测框架ExtremeNet。ExtremeNet使用最新的关键点检测框架，通过预测每个对象类别的4个peak heatmaps来找到极点，通过每个类别的一个center heatmap来预测对象中心，作为x维和y维上两个box的边缘平均值。然后，用基于几何的方式将极点分组到具体对象中。四个极点每个对应一个heatmap，当且仅当它们的几何中心已被预测在center heatmap上，且得分高于预定义的阈值时才会被分组到同一对象上。论文罗列了极点的所有O(n4)组合，并选择有效的那个（极点数n通常比较小），如图2.

One-stage目标检测最强算法 ExtremeNet翻译【Bottom-up Object Detection by Grouping Extreme and Center Points】

图2

本文不是第一个提出使用深度关键点预测来进行目标检测任务的，CornerNet就提出了预测矩形框的两个角点corner（左上和右下），并使用associative embedding feature将角点组合到相应的矩形框中。本文是受到Papadopoulos等人[33]的启发，他们提出通过单击四个极点来注释边界框，这个注释收集信息的速度大约是边框的四倍，并且提供了比边框更丰富的信息。本文与CornerNet有两点不同：

1.关键点定义

CornerNet预测bbox的左上右下一对角点，是另一种形式的矩形框，存在自顶向下检测算法所面临的的一些问题。另角点经常落在对象外部，没有足够的对象特征。ExtremeNet的极点在对象上，是视觉可分的，有一致的局部外观特征（如人的最上面的是头）。

2.关键点组合

CornerNet的角点是几何组合。ExtremeNet是完全基于外观的特征的组合，无需学习任何复杂的特征。

另外，极点与目标掩码object masks有紧密的联系，与矩形框相比，直接连接极点提供了更细粒度的对象掩码信息。本文实验证明，将一个简单的八边形拟合到极值点可以得到一个很好的目标掩码估计。本文可以进一步与DeepExtremeCut结合，将极端点注释转换为指定对象的分割掩码。直接将本文的极点预测作为对DeepExtremeCut[29]的指导，可以得到接近最先进的实例分割结果。

2. Related Work

Two-stage object detectors。two-stage检测算法分为两步：一是生成大量未知类别的候选bbox并裁剪；二是使用图片分类模块对裁剪区域特征进行分类。detection-by-classification的思想是很直观的，到目前为止一直保持最好的效果。

one-stage object detections。one-stage检测算法可看作是类别明确的区域或anchor建议网络，并直接为每个anchor分配一个类别标签。ExtremeNet属于one-stage检测方法。ExtremeNet不是在O(h2w2)空间中设置anchor，而是检测O(hw)空间中框的五个点。ExtremeNet只预测每个像素位置作为关键点的概率，而不是在每个像素位置设置默认大小和比例的anchor。center heatmap可以看做不回归矩形框的大小比例不可知的区域建议网络。

Deformable Part Model。作为自底而上的检测方法，本文组合极点和中心点的思想和Deformable Part Model有关。

Grouping in bottom-up human pose estimation。在自底向上的多人姿势估计算法中，找到哪些点属于同一个人是很重要的。目前有很多方法，比如学习每个点的关联特征、学习位关键点投射人类骨骼树上的父关节，作为每个关键点的二维特征、学习了作为相对于对象中心的偏移量的特征等。相比这些算法，本文利用极点和中心点的几何结构进行分组，仅仅基于外观特征，很容易学习。

Implicit keypoint detection。流行的关键点检测方法适用于定义良好的语义关键点，例如人类关节。StarMap[53]使用单个heatmap混合所有类型的关键点进行一般关键点检测。极值点和中心点是一种一般的隐式关键点，但具有更显式的几何性质。