目标检测 anchor 理解笔记

2023年4月7日下午10:31 • 目标检测

yizhihongxing

anchor在计算机视觉中有锚点或锚框，目标检测中常出现的anchor box是锚框，表示固定的参考框。

目标检测的任务：

在哪里有东西

难点：

目标的类别不确定、数量不确定、位置不确定、尺度不确定

传统算法的解决方式：

都要金字塔多尺度+遍历滑窗的方式，逐尺度逐位置判断"这个尺度的这个位置处有没有认识的目标"，非常笨重耗时，并不能很好的推广适用。

现状：

近期顶尖(SOTA)的目标检测方法几乎都用了anchor技术

作用：

首先预设一组不同尺度不同位置的固定参考框，覆盖几乎所有位置和尺度，每个参考框负责检测与其交并比大于阈值 (训练预设值，常用0.5或0.7) 的目标，anchor技术将问题转换为"这个固定参考框中有没有认识的目标，目标框偏离参考框多远"，不再需要多尺度遍历滑窗，真正实现了又好又快，如在Faster R-CNN和SSD两大主流目标检测框架及扩展算法中anchor都是重要部分。

举例：

1.预设anchor
目标检测 anchor 理解笔记

2.识别结果与预设anchor的IOU计算
目标检测 anchor 理解笔记

如按照上图所示，计算所有红色与绿色的IOU（交并比），根据阈值来过滤掉我们需要的后，可能如下图所示：
目标检测 anchor 理解笔记
蓝色部分为符合阈值剩余的部分。
当然在实际中存在一些其他的问题来辅助最后的预算，比如非极大值抑制（NMS）来挑选一个置信度最高的相似目标。

注意：

上图的示例仅仅是一个示例
真实的anchor应该参考如下图的方式：
目标检测 anchor 理解笔记

b图中，生成的anchor为：\(8*8*(预设anchor数量)\)
c图中，生成的anchor为：\(4*4*(预设anchor数量)\)

以上为我根据查找的资料观摩后的个人理解
并没有去深究代码实现和论文
仅供参考
如果理解有误，希望您能不吝赐教。

参考

https://zhuanlan.zhihu.com/p/55824651

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：目标检测 anchor 理解笔记 - Python技术站

人工智能目标检测

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

目标检测非极大值抑制（Non-Maximum Suppression，NMS）

上一篇 2023年4月7日

【50】目标检测之目标定位

下一篇 2023年4月7日

卷积神经网络

机器学习：利用卷积神经网络实现图像风格迁移 (三)

前面介绍了利用卷积神经网络实现图像风格迁移的算法原理和基于TensroFlow 的代码实现，这篇博客对前面的代码做了一些改变，设置了一个 image resize 函数，这样可以处理任意size的 input image，而且我们尝试利用 L-BFGS 优化算法替代之前的 Adam 优化算法，对卷积层以及pooling层函数做了修改。 import nump…

2023年4月8日
000
Tensorflow timeline trace

根据 https://github.com/tensorflow/tensorflow/issues/1824 简单进行了测试修改运行的脚本增加如下关键代码例如mnist_softmax.py from __future__ import absolute_import from __future__ import division from …

tensorflow 2023年4月6日
000
tensorflow

20180929 北京大学人工智能实践：Tensorflow笔记02

https://www.bilibili.com/video/av22530538/?p=16 https://www.bilibili.com/video/av22530538/?p=14 （完）

2023年4月8日
000
卷积神经网络

相关与卷积（数字信号处理）的数学原理及 Python 实现

数学原理　　在数字信号处理中，相关(correlation)可以分为互相关(cross correlation)和自相关(auto-correlation). 互相关是两个数字序列之间的运算；自相关是单个数字序列本身的运算，可以看成是两个相同数字序列的互相关运算．互相关用来度量一个数字序列移位后，与另一个数字序列的相似程度．其数学公式如下：　　其中，f …

2023年4月8日
000
tensorflow

tensorflow 2.0 学习（十五）自编码器 FashionMNIST数据集图像重建与生成

这里就不更新上一文中LSTM情感分类问题了，它只是网络结构中函数，从而提高准确率。这一篇更新自编码器的图像重建处理，网络结构如下：代码如下： 1 import os 2 import numpy as np 3 import tensorflow as tf 4 from tensorflow import keras 5 from tensorfl…

2023年4月8日
000
【转载】Caffe + Ubuntu 14.04 + CUDA 6.5 新手安装配置指南

洋洋洒洒一大篇，就没截图了，这几天一直在折腾这个东西，实在没办法，不想用Linux但是，为了Caffe，只能如此了，安装这些东西，遇到很多问题，每个问题都要折磨很久，大概第一次就是这样的。想想，之后应用，应该还会遇到很多问题吧，不过没办法了，骑虎难下！！这里有个建议是，如果将来要做大数据集，最好事先给Linux留多点空间，比如Imagenet，估计500…

Caffe 2023年4月8日
000
Keras 处理不平衡的数据的分类问题 imbalance data 或者 highly skewed data

处理不平衡的数据集的时候，可以使用对数据加权来提高数量较小类的被选中的概率，具体方式如下 fit(self, x, y, batch_size=32, nb_epoch=10, verbose=1, callbacks=[], validation_split=0.0, validation_data=None, shuffle=True, class_…

Keras 2023年4月8日
000
GAN生成对抗网络

GAN生成对抗网络-PIX2PIXGAN原理与基本实现-图像09

什么是pix2pix Gan 普通的GAN接收的G部分的输入是随机向量，输出是图像；D部分接收的输入是图像(生成的或是真实的)，输出是对或者错。这样G和D联手就能输出真实的图像。对于图像翻译任务来说，它的G输入显然应该是一张图x，输出当然也是一张图y。不需要添加随机输入。对于图像翻译这些任务来说，输入和输出之间会共享很多的信息。比如轮廓信息是共…

2023年4月5日
000

合作推广

合作推广

返回顶部