目标检测–Scalable Object Detection using Deep Neural Networks(CVPR 2014)

2023年4月6日下午4:49 • 目标检测

Scalable Object Detection using Deep Neural Networks

作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov

引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.

引用次数: 181(Google Scholar, by 2016/11/23).

项目地址: https://github.com/google/multibox

1 介绍

这是一篇2014年发表的CVPR会议论文, 几个作者都是Google公司的,文中的检测算法被命名为"DeepMultiBox".首先来看一下本文模型的思路: 本文的目标检测还是采用两步走的策略:

第一步: 在图像上生成候选区域; 以前常用的生成候选区域的方法是穷举法,对图像上所有的位置以及尺度进行穷举,这种计算效率太低,已经遭到废弃,现在陆续出来一些其他的方法,比如论文<论文阅读笔记--Selective Search for Object Recognition>里面提出的Selective Search的方法,利用层次聚类的思想,生成指定数目最可能包含目标的候选区域.同样,本文也是在这一方面做努力,提出了使用CNN来生成候选区域,并且命名为"DeepMultiBox";

第二步: 利用CNN对生成的候选区域进行分类; 生成候选区域后,提取特征,然后利用分类器进行分类从而达到识别的目的,这是一般的思路,没有什么好讲的,本文的重心在第一步.

2 本文模型

2.1 回归模型DeepMultiBox

如何使用CNN来在图像上生成候选区域呢? 本文借鉴了AlexNet网络的结构:

目标检测--Scalable Object Detection using Deep Neural Networks(CVPR 2014)

要对这个问题进行建模! 我们这里的目的是想让CNN输出一定数量的bounding boxes(每个box用4个参数表示,分别是此box的左上角的横坐标+纵坐标,右下角的横坐标+纵坐标,对每个坐标值要用图像的宽和高进行归一化),另外还要输出每个box上还要有一个是否包含目标的置信度(值介于0~1之间).这样,如果我们想让CNN输出K=100个bounding boxes,CNN输出层节点的维度要为(K*(4+1)=5*K=500).

2.1.1 DeepMultiBox的训练集构造

训练集是如何构造的? 训练集的输入肯定是每张训练图像上的"maximum center square crop",这个的含义是先计算每张图像的中心点,然后以它为中心从图像上裁剪出来一个最大的正方形,为了满足AlexNet的网络结构,可能每张图像还要resize到220*220大小(这点在原文中的4.2.2中讲述);关键在于输出,这点文中讲的比较隐晦,原文的表述为:"For each image,we generate the same number of square samples such that the total number of samples is about ten million.For each image, the samples are bucketed such that for each of the ratios in the ranges of 0−5%, 5−15%, 15−50%, 50−100%,there is an equal number of samples in which the ratio covered by the bounding boxes is in the given range." 我的理解是,对于训练集中的每个图像,产生固定数量(假设为N)的正方形的区域作为训练集(问题1:为什么要是正方形? 这些区域的大小都是相同的吗?如果相同,如何满足目标多尺度要求?如果不相同,如何选择区域的大小?),这N个区域的选择是有讲究的:它由四份组成,每份中区域向数量相等,而且每份中的区域与图像上GT boxes的重合程度分别是0-5%,5-15%,15-50%,50-100%.每个区域的置信度也没有讲要如何确定,我想应该就是每个区域与GT boxes的重合程度吧!

(问题2: 训练样本是不是这样构造的,还请指教!)

2.1.2 DeepMultiBox的训练

2.2里面讲述了训练集是如何构造的(有可能我理解的不正确,但是文中讲述的也太隐晦了),下面开始训练AlexNet模型.假如回归bounding box的数目K设定为100的话,将有500个参量需要回归,这样AlexNet的输出层节点的数目就要被设置为500(这点文中也没有讲).由于是回归,在CNN后面直接用Softmax可能不行,作者自己定于了目标函数,具体的见原论文.

2.2 CNN分类模型

2.2.1 分类模型的训练集构造

DeepMultiBox在每张图像上回归了K个候选区域,然而这些候选区域到底属于哪一类还不能确定,因此这里需要再训练一个CNN来对这些区域进行分类.

原文中的4.2.1节简短讲述了用于训练CNN分类器的训练样本构造(对于VOC数据集来说的,类别总数目为20):

正样本: 为每个类别构造正样本,如果候选区域和此类的GT boxes之间的Jaccard大于0.5,则此区域被标记成正样本,这样共产生了1千万个正样本,遍布20个类;

负样本: 和正样本构造的方式类似,只是Jaccard要小于0.2才被认定是负样本,这样,总共产生了2千万个负样本;

2.2.2 分类模型的结构

文中貌似没有具体讲述分类模型的结构,只知道用的也是AlexNet,输出层的节点数目肯定改成了21(对于VOC数据集而言),样本集区域的大小是多少不知道!每个样本区域要resize到AlexNet网络输入的指定大小,这点也没看到!

2.3 测试过程

测试的过程在原文的4.2.2节有讲到(假设有N个目标): 给定一张测试图像 --> 裁剪出它的最大正方形区域 --> 将此区域resize到220*220大小 --> 送入DeepMultiBox网络进行回归,得到K个回归boxes以及每个box的置信度分数 --> 利用非最大值抑制的方法将重叠度小于0.5的box去除掉 --> 拥有最高置信度分数的10个区域将被保留 --> 将这些区域送到分类CNN里面进行软分类,输出每个区域的概率值,得到10*(N+1)的概率矩阵 --> 每个区域的置信度分割乘上概率值作为它最终的分数 --> 这些分数用于估计和计算P-R曲线.

(问题3:这个测试的过程我认为最后少了一个对最终分数进行判断的过程,不知道最后是如何确定最终结果的!)

参考文献:

[1]

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：目标检测–Scalable Object Detection using Deep Neural Networks(CVPR 2014) - Python技术站

人工智能目标检测

0 0 打赏

微信扫一扫

支付宝扫一扫

目标检测–Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)

上一篇 2023年4月6日下午4:49

目标检测–Selective Search for Object Recognition(IJCV, 2013)

下一篇 2023年4月6日下午4:50

目标检测中bounding box regression

https://zhuanlan.zhihu.com/p/26938549 RCNN实际包含两个子步骤，一是对上一步的输出向量进行分类（需要根据特征训练分类器）；二是通过边界回归（bounding-box regression) 得到精确的目标区域，由于实际目标会产生多个子区域，旨在对完成分类的前景目标进行精确的定位与合并，避免多个检出。 fast rcnn…

目标检测 2023年4月6日
000
二手车价格预测 | 构建AI模型并部署Web应用 ⛵

二手车交易越发繁荣的当下，如何科学定价时买卖&平台三方都关心的问题。本文结合汽车价格预测数据集，讲解『二手车价格预估模型』构建和部署的全过程：数据分析处理 & 特征工程、机器学习建模、Web应用开发等。【代码与数据集亲测可运行】 ? 作者：韩信子@ShowMeAI? 数据分析实战系列：https://www.showmeai.tech/tut…

机器学习 2023年4月11日
000
循环神经网络

循环神经网络（rnn）讲解

• 循环神经网络（rnn） • RNN简介 • Rnn基本结构 • 双向rnn基本结构 • rnn梯度消失问题 • RNN应用举例 • RNN简介 • 循环神经网络（RNN）能够从序列和时序数据中学习特征和长期依赖关系。 • 循环神经网络（RNN）近几年在语言模型与文本生成，机器翻译，语音识别，图像描述生成等领域都取得了不…

2023年4月8日
000
卷积神经网络

TensorFlow实战之实现AlexNet经典卷积神经网络

本文已同步本人另外一个博客（http://blog.csdn.net/qq_37608890/article/details/79371347）本文根据最近学习TensorFlow书籍网络文章的情况,特将一些学习心得做了总结,详情如下.如有不当之处,请各位大拿多多指点,在此谢过。一、AlexNet模型及其基本原理阐述 1、关…

2023年4月6日
000
东方联盟提出基于机器学习的蓝牙认证方案

东方联盟研究人员提出了一种机器学习方法，该方法使用蓝牙网络中设备之间的真实交互作为可靠处理设备到设备身份验证的基础。称为“交互真实性验证”（又名 VIA），重复身份验证方案旨在解决被动、连续身份验证和一旦两个设备相互配对后自动解除身份验证的问题，在采取明确的解除身份验证操作之前，这些设备保持身份验证状态，或经过身份验证的会话过期。考虑通过蓝牙配对的设备，通…

机器学习 2023年4月15日
000
目标检测

基于CNN目标检测方法（RCNN，Fast-RCNN，Faster-RCNN，Mask-RCNN，YOLO，SSD）行人检测

一、研究意义卷积神经网络（CNN）由于其强大的特征提取能力，近年来被广泛用于计算机视觉领域。1998年Yann LeCun等提出的LeNet-5网络结构，该结构使得卷积神经网络可以端到端的训练，并应用于文档识别。LeNet-5结构是CNN最经典的网络结构，而后发展的卷积神经网络结构都是由此版本衍生而来。在过去六年中，由于深度学习和卷积网络的发展和进步，基…

2023年4月7日
000
卷积神经网络

高斯滤波及高斯卷积核C++实现

高斯滤波是一种线性平滑滤波，适用于消除高斯噪声，在图像处理的降噪、平滑中应用较多，特别是对抑制或消除服从正态分布的噪声非常有效。高斯滤波的过程其实就是对整幅图像进行加权平均操作的过程。滤波后图像上每一个像素的灰度值大小，由其本身和邻域内的其他像素共同决定。具体实现是：用一个大小为（2*N+1）的模板（或称卷积核、掩模）依次扫描图像中的每一个像素，用模板确定…

2023年4月8日
000
机器学习笔记（一）基本概念与单变量线性回归

机器学习算法分类传统机器学习算法主要包括以下五类：回归：建立一个回归方程来预测目标值，用于连续型分布预测分类：给定大量带标签的数据，计算出未知标签样本的标签取值聚类：将不带标签的数据根据距离聚集成不同的簇，每一簇数据有共同的特征关联分析：计算出数据之间的频繁项集合降维：原高维空间中的数据点映射到低维度的空间中（1）线性回归：找到一条直线来预测…

机器学习 2023年4月10日
000

目标检测–Scalable Object Detection using Deep Neural Networks(CVPR 2014)

相关文章