深度学习_目标检测_边框回归（Bounding Box Regression）详解

2023年4月8日上午2:42 • 目标检测

为什么要边框回归？

深度学习_目标检测_边框回归（Bounding Box Regression）详解

对于上图，绿色的框表示Ground Truth，红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准（IOU < 0.5），那么这张图相当于没有正确的检测出飞机。如果我们能对红色框进行微调，使得经过微调后的框跟Ground Truth更接近，这样岂不是定位会更准确。而Bounding-Box Regression就是用来微调这个框的。

边框回归是什么？

对于框一般使用四维向量 $(x, y, w, h)$ 来表示，分别是框的中心点坐标和宽高。对于下图所示的红色框P代表原始的Proposal，绿色的框G代表目标的Ground Truth，我们的目标是寻找一种关系使得输入原始的框P经过映射得到一个跟真实框G更接近的框 $hat{G}$ 。

深度学习_目标检测_边框回归（Bounding Box Regression）详解
边框回归的目的既是：给定 $(P_{x}, P_{y}, P_{w}, P_{h})$ 寻找一种映射 $f$ ，使得 $f(P_{x}, P_{y}, P_{w}, P_{h}) = (hat{G_{x}}, hat{G_{y}}, hat{G_{w}}, hat{G_{h}})$ 并且 $(hat{G_{x}}, hat{G_{y}}, hat{G_{w}}, hat{G_{h}}) approx (G_{x}, G_{y}, G_{w}, G_{h})$

边框回归怎么做的？

那么经过何种变换才能从上图中框P变成框 $hat{G}$ 呢？

比较简单的思路就是：平移 + 尺度缩放。

先做平移：

深度学习_目标检测_边框回归（Bounding Box Regression）详解

深度学习_目标检测_边框回归（Bounding Box Regression）详解
2. 再做尺度缩放：

深度学习_目标检测_边框回归（Bounding Box Regression）详解

观察（1）- （4）我们可以发现，边框回归学习就是 $d_{x}(P), d_{y}(P), d_{w}(P), d_{h}(P)$ 这四个变换。下一步就是设计算法得到这四个映射。

线性回归就是给定输入的特征向量X，学习一组参数W，使得经过线性回归后的值跟真实值Y（Ground Truth）非常接近，即 $Y approx WX$ 。那么Bounding-box中我们的输入以及输出分别是什么呢？

Input

深度学习_目标检测_边框回归（Bounding Box Regression）详解

Output

深度学习_目标检测_边框回归（Bounding Box Regression）详解
这也就如下式所示：

深度学习_目标检测_边框回归（Bounding Box Regression）详解

那么目标函数也可以表示为：

深度学习_目标检测_边框回归（Bounding Box Regression）详解

其中 $phi_{5}(P)$ 是输入Proposal的特征向量， $W_{*}$ 是要学习的参数（*表示x，y，w，h，也就是每一个变换对应一个目标函数）。 $d_{*}(P)$ 是得到的预测值。我们要让预测值跟真实值 $t_{*} = (t_{x}, t_{y}, t_{w}, t_{h})$ 差距最小，得到损失函数为：