目标检测算法-Mask-RCNN

2023年4月7日下午11:59 • 目标检测

Mask_RCNN是何凯明基于以往的faster-rcnn构架提出的新的卷积网络，该方法再有效的目标的同时完成了高质量的语义分割。主要思路就是把原有的faster-rcnn进行扩展，添加一个分支使用现有的检测对目标进行并行预测，可以很方便的应用其他的应用领域，向目标检测，分割和人物关键点检测等。其网络结构如下。

目标检测算法-Mask-RCNN

Mask-RCNN是在faster-RCNN的基础上添加了一个预测分割mask分支，将ROIPooling替换成了ROIAlign层添加了并列的FCN层（mask层）。

为什么替换ROIPooling层？

因为ROIPooling操作中两次量化回造成区域不匹配。比如，在在faster-rcnn框架中，输入一张800×800的图片，图片上有一个665×665的包围框，图片经过主干网络提取特征后，特征图缩放步长为32，因此，图像和包围框的边长都是输入时的1/32，800正好被32整除，但是665除以32以后为20.78，于是ROIPooling直接将它量化成20，接下来需要把框内的特征池化为7×7的大小，因此将上述包围框平均分成7×7个矩形，显然每个矩形的边长为2.86，于是ROIPooling再次将它量化到2，候选区域已经出现了明显的偏差，更终要的是，该特征图上0.1像素的偏差缩放到原图就是3.2个像素，那么0.8的偏差，在原图上就是接近30个像素的差别。

在此之前先引入线性插值。

线性插值

已知数据 $(x_0, y_0)$ 与 $(x_1, y_1)$ ，要计算 $[x_0, x_1]$ 区间内某一位置 $x$ 在直线上的 $y$ 值，如下图所示。

目标检测算法-Mask-RCNN

计算方法很简单，通过斜率相等就可以构建y和x之间的关系，如下：
$frac{y - y_0}{x - x_0} = frac{y - y_1}{x - x_1} ====> y=frac{x-x_0}{x_1-x_0}y_1+frac{x_1-x}{x_1-x_0}y_0$
仔细看就是用 $x$ 和 $x_0$ ， $x_1$ 的距离作为一个权重（除以 $x-x_0$ 是归一化的作用），用于 $y_0$ 和 $y_1$ 的加权。这个思想很重要，因为知道了这个思想，理解双线性插值就非常简单了。

双线性插值。

双线性插值本质上就是在两个方向上做线性插值。

目标检测算法-Mask-RCNN

如图，假设我们想得到P点的插值，我们可以先在x方向上，对 $Q_{11}$ 和 $Q_{21}$ 之间做线性插值得到 $R_1$ ， $R_2$ 同理可得。然后在y方向上对 $R_1$ 和 $R_2$ 进行线性插值就可以得到最终的P。其实知道这个就已经理解了双线性插值的意思了，如果用公式表达则如下（注意 $f$ 前面的系数看成权重就很好理解了）。

首先在 x 方向进行线性插值，得到

目标检测算法-Mask-RCNN

然后在 y 方向进行线性插值，得到

这样就得到所要的结果 $f(x,y)$

所以ROIAlign中去掉了ROIPooling过程中所有的量化过程，包括从原图proposal到最后一层feature map映射，以及把feature map划分成m×m的bin过程的量化。

目标检测算法-Mask-RCNN

为了得到固定大小的feature map，ROIAlign技术并没有使用量化操作，既不引入量化误差。这里使用双线性插值来解决，利用双线性插值来估计这些蓝色点的像素值，然后在每一个网格内进行max pooling或average pooling操作，得到2×2的输出结果。整个过程中没有用到量化操作，没有引入误差，即原图中的像素和feature map中的像素是完全对齐的，没有偏差。

什么是mask分支

目标检测算法-Mask-RCNN

mask分支本质上是一个FCN网络，FCN采用反卷积层对最后一个卷积层得到的特征图进行上采样，对于每一个ROI，mask分支定义一个k×m×m的矩阵，表示k个不同的分类对于每一个m×m的区域，对于每一个类都有一个，对于每一个像素都使用sigmoid函数进行求相对熵，得到平局相对熵误差Lmask，对于每一个ROI如果检测得到的ROI属于哪一个类，就只使用哪一个分支的相对熵作为误差值进行计算，这样的定义使得我们的网络不需要去区分每一个像素属于哪一个类，只需要去区分在这个类当中的不同分别小类。这里要注意，在完成目标检测后用回归后哦的box取feature map上截取后，在经过ROIAlign后在进行mask。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：目标检测算法-Mask-RCNN - Python技术站

人工智能目标检测

0 0 打赏

微信扫一扫

支付宝扫一扫

目标检测算法-MRCNN

上一篇 2023年4月7日下午11:59

目标检测算法优化技巧

下一篇 2023年4月8日上午12:00

Caffe

CAFFE学习笔记（五）用caffe跑自己的jpg数据

1 收集自己的数据 1-1 我的训练集与测试集的来源：表情包由于网上一幅一幅图片下载非常麻烦，所以我干脆下载了两个eif表情包。同一个表情包里的图像都有很强的相似性，因此可以当成一类图像来使用。下载个eif解压包可以把eif文件解压成gif和jpg格式的文件，然后删除gif文件，只留下jpg格式的文件，这些图就是我的训练集与测试集了。 1-2 使用rena…

2023年4月6日
000
视频目标检测 Flow-Guided Feature Aggregation for Video Object Detection

TCNN 静态图像中目标检测（rcnn,fast rcnn, faster rcnn, yolo, ssd 等）上下文信息使用图像检测算法将视频帧当做独立的图像来处理并没有充分利用整个视频的上下文信息。虽然说视频中可能出现任意类别的目标，但对于单个视频片段，只会出现比较少的几个类别，而且这几个类别之间有共现关系（出现船只的视频段中可能会有鲸鱼，但基本不…

目标检测 2023年4月8日
000
卷积神经网络

[DL学习笔记]从人工神经网络到卷积神经网络_2_卷积神经网络

先一层一层的说卷积神经网络是啥： 1：卷积层，特征提取我们输入这样一幅图片(28*28)：如果用传统神经网络，下一层的每个神经元将连接到输入图片的每一个像素上去，但是在卷积神经网络中，我们只把输入图像的一部分连接到下一层的神经元上。比如每个神经元连接对应的一个5*5的区域：这个输入图像的区域被称为隐藏神经元的局部感受野(local receptive…

2023年4月6日
000
目标检测

深度学习笔记（四）（3）目标检测（Object detection）

深度学习笔记（四）（3）目标检测（Object detection） 3.1 目标定位（Object localization）想要定位目标，要在标准的分类过程下，让神经网络多输出几个单元，输出一个边界框。具体说就是让神经网络再多输出4 个数字，标记为????????,????????,????ℎ和????????，这四个数字是被检测对象的边界框的参数化表…

2023年4月8日
000
Keras

自我学习与理解：keras框架下的深度学习（三）回归问题

　　本文主要是使用keras对其有的波士顿房价数据集做一个回归预测，其代码架构与之前一样（都只是使用多层感知机）：数据的预处理、搭建网络框架、编译、循环训练以及测试训练的网络模型。其中除了数据预处理与之前归回模型略有不同，其他基本类似。但是在本文的回归预测代码中会提到一个数据集比较少时常用到的训练方法——交叉验证。回归预测房价，也就是说选定影…

2023年4月8日
000
笔记：《吴恩达机器学习》——网易云课堂课程[绪论+单变量线性回归]

一、绪论1、定义 2、监督学习（Supervised Learning）：（训练前被告知对错）线性回归、分类eg.房价预测、肿瘤预测3、非监督学习（Unsupervised Learning）聚类eg.分离混音、新闻搜索、DNA分析、社交网络、天文分析、市场分析二、单变量线性回归1、线性回归模型概述 2、代价函数 θ_0=0时当θ_0不等0时等高线图显示…

机器学习 2023年4月11日
000
PyTorch

使用pytorch框架实现使用FM模型在movielen数据集上的电影评分预测(rendle的工作)

一、FM介绍（1）实验的主要任务：使用FM在movielen数据集上进行电影评分预测任务（rendle的工作，经典的特征选择）（2）参考论文：Factorization Machines （3）部署环境：python37 + pytorch1.3 （4）数据集：Movielen的small数据集，使用的rating.csv文件。数据集按照8:2的比例进行…

2023年4月8日
000
Caffe

DL开源框架Caffe | 模型微调（finetune）的场景、问题、技巧以及解决方案

转自：http://blog.csdn.net/u010402786/article/details/70141261 前言什么是模型的微调？　　　　使用别人训练好的网络模型进行训练，前提是必须和别人用同一个网络，因为参数是根据网络而来的。当然最后一层是可以修改的，因为我们的数据可能并没有1000类，而只有几类。把最后一层的输出类别和层的名称改一下就可…

2023年4月8日
000

目标检测算法-Mask-RCNN

相关文章