【目标检测】YOLO v1 one-stage

2023年4月8日上午4:03 • 目标检测

YOLO由24层ConvNet和2层FCs组成。其核心思想是将图片均匀划分为多个grid cell，每个grid cell产生两个bbox和grid cell中如果存在对象，对象是各类的概率，每个bbox由5个参数组成，xywh和confidence，confidence是bbox中存在对象的概率，将两概率相乘即可表示grid cell存在某类对象的概率。

YOLO的损失函数是全文重点。通过损失函数，使得模型更关注包含对象的bbox。

但也因为网络本身的设置，使得YOLO无法对多个相邻小物体进行识别，并且对定位和大小物体偏差的错误也没能通过微调损失函数解决。

Introduction

目前大多数检测系统是将图像分类任务转换为图像检测任务。YOLO将目标检测问题转换为回归问题。使用一个网络从完整图片中预测bounding boxes和class probabilities。因为整个检测流程是一个单一网络，所以它能够被端到端的优化。相较于最有目标检测算法，yolo存在更多的定位错误

Unified Detection

将输入图片分割为S x S网格。如果一个目标的中心在某个网格中，这个网格就负责检测这个目标。每个网格预测B个bounding boxes和对应的confidence scores。Confidence scores反应了模型对box包含目标的confident以及预测目标的accurate。定义confidence：

【目标检测】YOLO v1 one-stage

如果没有目标存在，则confidence scores应该为0。另外，我们希望confidence scores等于predicted box和ground truth的IoU。每一个bounding box包含5个值：x, y, w, h, confidence。(x, y)表示box中心相对于网格单元的坐标；w, h是相对于整个图片的宽高；因此x, y, w, h的值都在[0, 1]之间。confidence prediction代表predicted box和ground truth box间的IoU。

每个网格也预测C个类条件概率：

【目标检测】YOLO v1 one-stage

这个概率是网格包含目标情况下的。每个网格只预测一组类条件概率，与bbox数量B无关。测试时：

【目标检测】YOLO v1 one-stage

这样我们就获得了每个box的class-specific confidence score。

【目标检测】YOLO v1 one-stage

参数设置：对于VOC数据集，S = 7，B = 2，C = 20。

Network Design

【目标检测】YOLO v1 one-stage

24卷积层+2全连接层。卷积层从图片中提取特征，全连接层预测概率和坐标。Fast YOLO使用9个卷积层以及更少的卷积核。使用前20层卷积层在ImageNet上训练。之后增加了4层卷积层和2层全连接层，并加大了图片的分辨率，以满足检测对图片细纹理的要求。最后一层使用linear**函数，其余使用leaky rectified linear**函数：

【目标检测】YOLO v1 one-stage

损失函数原型是模型输出的sum-squared error，但存在两个问题：

它平均的考虑了定位error和分类error，这不太理想。
许多网格并不包含任何目标，这使得这些网格的confidence scores向着0，导致模型不稳定，出现偏差。

为解决这些问题，我们增加了bounding box坐标预测损失的影响，并且减少不包含目标box的confidence造成的损失。我们使用λcoord和λnobj来调解他们的影响，设置λcoord=5、λnobj = 0.5。

Sum-squared error同时也均衡了大小box的loss。相对于大box中的deviation，小box的deviation更应该被loss function注意。为解决这个，我们将对宽高的预测替换为宽高平方根。

YOLO在每个网格中预测多个bbox，训练时，对每个目标，我们只希望有一个去bbox负责。我们指定bbox的原则是，与ground truth有最高IOU的bbox。这使得每个predictor在对某个目标的size, aspect ratio, class有着更好的表现，改善整体的召回率。训练时，我们最优化一下loss function：

【目标检测】YOLO v1 one-stage