目标检测之RCNN,fast RCNN,faster RCNN

  1. 候选区生成(Selective Search)。
    1. 分割成2000左右的候选小区域
    2. 合并规则:颜色、纹理相近,尺度均匀,合并后形状规则
  2. 特征提取。
    1. 归一候选区尺寸为227×227,归一方法。
    2. 使用在imageNet上的分类网络作为预训练网络,预训练网络输出4096维特征
    3. 预训练网络加上全连接层在分类数据集上预训练
  3. 每一类使用SVM分类器
    1. 对预训练网络输出的4096维特征,使用多个SVM分类器进行判断
    2. 对于负样本过多的问题,使用hard negative mining,将重叠框小于阈值的作为负类。
  4. 位置回归
    1. 训练回归器输出x,y,d,h偏移量
      目标检测之RCNN,fast RCNN,faster RCNN

fast RCNN

目标检测之RCNN,fast RCNN,faster RCNN

  1. 使用整张图片传入网络提取特征
  2. 使用Selective search等方法得到候选区域,复用前面阶段的网络特征
  3. 对候选区使用Roi Pooling层规定尺寸图像(全连接层需要相同大小的输入)
    目标检测之RCNN,fast RCNN,faster RCNN
  4. 输入到两个并行的全连接层中,分别计算损失
    目标检测之RCNN,fast RCNN,faster RCNN

例如:
对于输入图像:
目标检测之RCNN,fast RCNN,faster RCNN
候选区域:
目标检测之RCNN,fast RCNN,faster RCNN
最后一个卷积层:
目标检测之RCNN,fast RCNN,faster RCNN
放大
目标检测之RCNN,fast RCNN,faster RCNN
归一尺寸的候选区域的特征:
目标检测之RCNN,fast RCNN,faster RCNN

目标检测之RCNN,fast RCNN,faster RCNN

faster RCNN

主要思想是使用最后一个卷积层来得到候选区域,faster RCNN相当于:候选区域生成网络+fast RCNN。
目标检测之RCNN,fast RCNN,faster RCNN

  1. 特征提取网络,VGG-16等。网络输出5139256维特征
  2. 使用3种面积,3种长宽总共9种候选窗口,称为:anchor,如图:
    目标检测之RCNN,fast RCNN,faster RCNN
  3. 训练过程中有四种损失:
    1. 区域生成网络的前后景分类损失(Object or not object)
    2. 区域生成网络的区域位置损失(Bounding box proposal)
    3. Fast RCNN物体分类损失(Normal object classification)
    4. Fast RCNN区域位置损失(Improve previous Bounding box proposal)
      目标检测之RCNN,fast RCNN,faster RCNN
  4. 训练方式:
    1. 轮流训练
    2. 近似联合训练
    3. 联合训练

整个结构:

目标检测之RCNN,fast RCNN,faster RCNN