1.Hourglass

本文使用全卷积神经网络,对给定的单张RGB图像,输出人体关键点的精确像素位置,使用多尺度特征,捕捉人体各关节点的空间位置信息。网络结构形似沙漏状,重复使用top-down到bottom-up来推断人体的关节点位置。每一个top-down到bottom-up的结构都是一个stacked hourglass模块

目标检测的重点
目标检测的重点
中继结构进行loss监督

2.HRNet
们提出了一种新的架构,即高分辨率网络(HRNet),它能够在整个过程中维护高分辨率的表示。我们从高分辨率子网作为第一阶段始,逐步增加高分辨率到低分辨率的子网(gradually add high-to-low resolution subnetworks),形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,我们通过在并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合。我们通过网络输出的高分辨率表示来估计关键点。生成的网络如图所示。
目标检测的重点(1)我们的方法是并行连接高分辨率到低分辨率的子网,而不是像大多数现有解决方案那样串行连接。因此,我们的方法能够保持高分辨率,而不是通过一个低到高的过程恢复分辨率,因此预测的热图可能在空间上更精确。parallel high-to-low resolution subnetworks
(ii)大多数现有的融合方案都将低层和高层的表示集合起来。相反,我们使用重复的多尺度融合,利用相同深度和相似级别的低分辨率表示来提高高分辨率表示,反之亦然,从而使得高分辨率表示对于姿态的估计也很充分。因此,我们预测的热图可能更准确。multi-resolution subnetworks (multi-scale fusion)
目标检测的重点
3.CARAFE: Content-Aware ReAssembly of FEatures

目标检测的重点
最近邻或者双线性上采样
仅通过像素点的空间位置来决定上采样核,并没有利用到特征图的语义信息,可以看作是一种“均匀”的上采样,而且感知域通常都很小(最近邻 1x1,双线性 2x2);
Deconvolution
上采样核并不是通过像素间的距离计算,而是通过网络学出来的,但对于特征图每个位置都是应用相同的上采样核,不能捕捉到特征图内容的信息,另外引入了大量参数和计算量,尤其是当上采样核尺寸较大的时候;
Dynamic filter
对于特征图每个位置都会预测一组不同的上采样核,但是参数量和计算量更加爆炸,而且公认比较难学习;
然后我们希望上采样运算符具有以下特征。

大的感受野:为了更好地利用周围的信息,必须有一个大的感受野。

内容感知:上采样核心应与特征图的语义信息相关,并根据输入进行上采样。

轻量级:不能引入太多参数和计算,需要保持轻量级

  1. GCNET和nonlocal
    一、为了捕获长距离依赖关系,产生了两类方法:
    第一种是采用自注意力机制来建模query对的关系。
    第二种是对query-independent(可以理解为无query依赖)的全局上下文建模
    目标检测的重点
    non-local block旨在从其他位置聚集信息来增强当前位置的特征。
    它们的attention maps几乎是相同的。作者通过分析不同位置全局上下文的距离,进一步证明了这一点。换句话说,虽然non-local block想要计算出每一个位置特定的全局上下文,但是经过训练之后,全局上下文是不受位置依赖的。

简化版的non-local block可以抽象为3个步骤:
(a)全局attention pooling:采用1x1卷积 [公式] 和softmax函数来获取attention权值,然后执行attention pooling来获得全局上下文特征。
(b)特征转换:采用1x1卷积 [公式] 。
©特征聚合:采用相加操作将全局上下文特征聚合到每个位置的特征上。
二、SENET
目标检测的重点
三、GC block的3个步骤为:
(a)global attention pooling用于上下文建模。
(b)bottleneck transform来捕获通道间依赖。
©broadcast element-wise addition用于特征融合。
目标检测的重点
5.可形变卷积DCNv1,v2,v3
DCN v1
目标检测的重点
偏移量特征的分辨率与输入特征的分辨率相同,且通道数为采样点个数的两倍(即每个位置都有x和y两个方向的偏移量)。
DCNv2
目标检测的重点
调制因子特征的分辨率与输入特征的分辨率相同,且通道数为采样点的个数,加上偏移量特征后的通道数为采样点个数的三倍(即每个位置都有x和y两个方向的偏移量,还有一个调制因子
改进deformable结构,我们知道不管是deformable convolution还是deformable RoI pooling,主要通过引入offset,使得特征提取过程能够更加集中于有效信息区域,而这篇论文在v1的基础上引入了modulation,modulation简单而言就是权重,通过分配不同权重给经过offset修正后的区域,实现更加准确的特征提取

DCN v3

虽然边界框便于计算,但它们仅提供目标的粗略定位,并不完全拟合目标的形状和姿态。因此,从边界框的规则单元格中提取的特征可能会受到背景内容或前景区域的无效信息的严重影响。这可能导致特征质量降低,从而降低了目标检测的分类性能。
RepPoints,它提供了更细粒度的定位和更方便的分类。

目标检测的重点Min-max function:在所有点中找最小和最大值,获得囊括所有点的外接框
Partial min-max function:选取部分点进行上述操作
Moment-based function:求出所有点的均值和方差,通过另外两个全局学习的系数将均值和方差还原为box
目标检测的重点
6.SKYNET
文章指出,在神经科学界,视皮层神经元的感受野大小受刺激的调节,即对不同刺激,卷积核的大小应该不同,但这在构建CNN时一般在同一层只采用一种卷积核,很少考虑多个卷积核的作用。

文中提出了一种在CNN中对卷积核的动态选择机制,该机制允许每个神经元根据输入信息的多尺度自适应地调整其感受野(卷积核)的大小。设计了一个称为选择性内核单元(SK)的构建块,其中,多个具有不同内核大小的分支在这些分支中的信息引导下,使用SoftMax进行融合。由多个SK单元组成SKNet,SKNet中的神经元能够捕获不同尺度的目标物体。

目标检测的重点
目标检测的重点
7.Better to follow,follow to better
虽然最近基于区域建议的CNN模型在目标检测方面取得了成功,但是由于小兴趣区域(small Region of Interest, RoI)所包含的信息有限且失真,小目标的检测仍然比较困难。解决这一问题的一种方法是使用超分辨率(SR)技术来增强小型RoI的特性。我们研究如何提高级的超分辨率特别是对小目标检测,并发现它的性能可以显著提高通过:

(1)、利用适当的高分辨率目标特性作为SR的训练监督信号模型。

(2)、匹配输入的相对接受训练领域对低分辨率的特性和目标高分辨率特性。
(1)、我们深入研究了现有的特征级超分辨率小目标检测方法,发现

(i)、利用高分辨率目标特征作为监督信号

(ii)、匹配输入与目标特征的相对接受域,显著提高了性能。

(2)、我们提出了一种新特征级超分辨方法,该方法可以垂直地应用于任何基于特征池的检测器。它充分利用了新目标提取器创建的高分辨率目标特征的直接监督,利用不需要额外参数的卷积,因为它与基础检测器的CNN主干共享参数。此外,我们提出了一种迭代细化生成器作为超分辨特征的新方法。目标检测的重点
8.目标检测的重点
上图是DenseNet的示意图以及CSPDenseNet的改进,改进点在于CSPNet将浅层特征映射为两个部分,一部分经过Dense模块(图中的Partial Dense Block),另一部分直接与Partial Dense Block输出进行concate。
9.libra rcnn
目标检测的重点
9.SAPD
目标检测的重点
目标检测的重点