MRCNN网络结构:

目标检测算法-MRCNN

 

一.Activation maps Moudle

这个模块中将原始的输入图像,经过一系列的卷积操作输出feature map,这部分可以使用各种经典的网络结构,这部分就是提取原始图像的特征信息。

二.Region Adaptation Module

这部分就是给定一个Region和网络输出的feature map。此模块将Region映射到feature map上,进行裁剪后,连接到Adaptive Max-Pooling,并传到多个多层的网络中。

注意(Region需要进行变化):

(1)每一种变化后的Region都要送到与变换对应的独立网络进行学习。

(2)在通过Region Adaption Module后需要将多个模型的结果拼接起来,得到最后的结果。

使用Region变换而且每中变换都要有单独的网络来训练有下面2点好处:

(1)可以迫使网络捕捉对象外观的各个互补方面

(2)可以使结果对不准确的定位更加敏感

下面介绍Region的几种变化:

目标检测算法-MRCNN

(f)是通过将候选框缩放 0.5 倍得到的。
(g)内部 box 是将候选框缩放 0.3 倍,而外部 box缩放 0.8 倍
(h)内部 box 将候选框放大 0.5 倍,外部 box 的大小与候选框相同。
(i)内部 box 是通过将候选框缩放 0.8 倍,而外部 box 缩放 1.5 倍
(j)内部 box 是候选框本身,外部 box 是通过将候选框缩放 1.8 倍得到的。

三.semantic-segmentation ware CNN model

目标检测算法-MRCNN

这个方法是将语义分割通过弱监督学习的方式用于目标检测来感知对象,图像分割相关的线索应该也是有助于目标检测的,这里使用FCN来训练前景的概率,训练方法是在Region Adaptation Module中添加一个Region变换,这个Region变换是将候选检测框方法1.5倍。然后将ground truth边界框内的标记为前景,将边界框外的标记为背景。放入FCN网络进行训练。在FCN被训练完成前景分割的辅助任务后,去掉最后一个分类层,只使用剩下的部分,最后将MRCNN网络的结果和此结果进行合并输出。(这个就是类似于Faster-RCNN中的RPN网络,为了找到更合适的框。)