目检测与图像分类的区别?
深度学习目标检测器的组成:包含不同目标检测架构的区别和基本模型之间的区别
如何使用预训练模型进行深度学习目标检测?
如何从一个深度学习模型中过滤或者忽略一些预测类别?
向深度神经网络增加类别或从中删除类别时常见的误区和误解

目标检测技术作为计算机视觉的重要方向,被广泛应用于自动驾驶汽车、智能摄像头、人脸识别及大量有价值的应用上。这些系统除了可以对图像中的每个目标进行识别、分类以外,它们还可以通过在该目标周围绘制适当大小的边界框来对其进行定位

图像分类和目标检测的区别

图像分类:输入图像——输出类别标签
目标检测:输入图像——输出多个边界框及类别标签
(输出边界框列表或者对象坐标、与每个边界框关联的类别标签、与每个边界框和类别标签关联的概率或者置信度得分)

将已训练的分类网络用于目标检测

  1. 应用基于计算机视觉的标准目标检测方法(非深度学习方法),例如滑动窗口和图像金字塔等方法通常被用在 HOG+基于线性 SVM 的目标检测器。

  2. 采用预训练的网络,并将其作为深度学习目标检测架构的基本网络(例如 Faster R-CNN, SSD, YOLO)。

传统方法

  1. 固定尺寸的滑动窗口,它从左到右,自上而下滑动,来定位不同位置的对象。

  2. 图像金字塔,用来检测不同尺度的对象

  3. 一个预训练(分类)的 CNN 来分类

深度学习方法

目标检测架构 = 预训练的分类网络(基本网络)+ 其它网络
目标检测基础:初步认识

深度学习目标检测框架包括Faster R-CNN、SSD和YOLO等等,其中所谓的基本网络,即是我们熟知的一些经典的卷积神经网络结构,比如VGGNet、ResNet、MobileNet和DesNet等等

目标检测的评价指标

在评价目标检测器的性能时我们使用了一个叫做均值平均精度(mAP) 的指标,它是以我们数据集中所有类别的交并比(IoU)为基础的。

IoU
就是一个比值。在分子项中,我们计算了真实边界框和预测边界框重叠的区域。分母是一个并集是由预测边界框和真实边界框所包括的区域。两者相除就得到了最终弄的得分:交并比。

参考:
增加检测类别?这是一份目标检测的一般指南