论文分享：目标检测-YOLO

2023年4月8日上午10:34 • 目标检测

You Only Look Once: Unified, Real-Time Object Detection 论文地址

转自：http://haha-strong.com/

算法思路

仿照人类视觉系统，只看一次图片就可以知道目标的类别以及位置。在实际测试时将图片人分成S*S的方格，对每个方格回归出两个边框以及相应的置信度，和20类类别。

motivation

目前的算法都是先提取候选区域在进行类别的判别和边框优化，不仅降低了整个算法运行时间们还容易导致后续边框优化时缺乏上下文信息而不够精确。
本文提出一种将二者合二为一的YOLO算法，通过卷积层提取特征，然后使用全连接层直接预测目标的位置以及类别信息。

做法

论文分享：目标检测-YOLO

论文分享：目标检测-YOLO

本文算法分为三个步骤：首先将图片分成S*S个网络，如上图左边所示；接着对每个网格回归出两个边框，以及他们的类别和置信度；最后使用Soft-NMS除去重合的边框，得到最终的结果。

整个网络架构如下所示：

论文分享：目标检测-YOLO

论文分享：目标检测-YOLO

性能

由于没有特征再提取操作，所以整个算法的效率提升了不少，精度没有多少的损失。
下图是当时与最好算法性能的比较：

论文分享：目标检测-YOLO

论文分享：目标检测-YOLO

在实时性的目标检测算法中，本文提出的YOLO算法不仅在速度上有巨大的优势，而且精度上也比以往的提升了两倍。与非实时性算法相比，本文提出的算法在损失较小的性能指标下，获得6X倍速度的提升。

Thoughts

本文算法首次将single network引入到目标检测中，极大的提升了算法的速度。利用预设的锚点可以保证网络有足够的边框回归出目标的位置以及大小。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：论文分享：目标检测-YOLO - Python技术站

人工智能目标检测

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

目标检测论文解读12——RetinaNet

上一篇 2023年4月8日上午10:33

目标检测论文解读5——YOLO v1

下一篇 2023年4月8日上午10:34

卷积神经网络

卷积神经网络——池化层学习——最大池化

池化层（Pooling layers）除了卷积层，卷积网络也经常使用池化层来缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性，我们来看一下。先举一个池化层的例子，然后我们再讨论池化层的必要性。假如输入是一个4×4矩阵，用到的池化类型是最大池化（max pooling）。执行最大池化的树池是一个2×2矩阵。执行过程非常简单，把4×4的输入拆分…

2023年4月5日
000
不用ChatGPT，只用CodeGeeX with Chat！一样实现智能问答

在ChatGPT推出后，许多人发现，它在编程方面也具有强大的能力——在编写代码过程中，如果遇到问题，可以不必去搜索引擎寻找答案，而是直接向ChatGPT提问。不过，在申请使用一些功能时，需要先等待各种waitlist，很多用户表示等了挺久还没用上。有没有更快的方式，能够在代码编写环境中，用上智能问答的功能呢？答案是肯定的。本周CodeGeeX功能更新，为…

人工智能概论 2023年4月22日
000
PyTorch

[深度学习] Pytorch学习（二）—— torch.nn 实践：训练分类器（含多GPU训练CPU加载预测的使用方法）

Learn From: Pytroch 官方TutorialsPytorch 官方文档环境：python3.6 CUDA10 pytorch1.3 vscode+jupyter扩展 #%% #%% # 1.Loading and normalizing CIFAR10 import torch import torchvision import torch…

2023年4月8日
000
卷积神经网络

深度学习原理与框架- tf.nn.atrous_conv2d(空洞卷积) 问题：空洞卷积增加了卷积核的维度，为什么不直接使用7*7呢

空洞卷积，从图中可以看出，对于一个3*3的卷积，可以通过使用增加卷积的空洞的个数，来获得较大的感受眼，从第一幅图中可以看出3*3的卷积，可以通过补零的方式，变成7*7的感受眼，这里补零的个数为1，即dilated等于2 空洞卷积在语义分割中的使用较多，因为涉及到向下卷积和向上卷积，为了不使用padding降低图片的维度，造成feature_map的信息…

2023年4月8日
000
TensorFlow函数 tf.argmax()

参数： input：输入数据 dimension：按某维度查找。　　　　dimension=0：按列查找；　　　　dimension=1：按行查找；返回：最大值的下标 import tensorflow.compat.v1 as tf tf.disable_v2_behavior() a = tf.constant([1.,2.,5.,0.,4.])…

tensorflow 2023年4月8日
000
循环神经网络

知识卡片循环神经网络 RNN

前言：本文简要介绍了循环神经网络RNN以及其变体长短时记忆LSTM和双向循环网络。循环神经网络 RNN-Recurrent Neural Network 序列数据 RNN建模的适合于序列数据，例如根据股票价格随时间的走势预测未来；视频中的每一帧属于帧序列，可以预测下一帧的内容，进行动作补偿。自然语言处理中，如大话西游的台词，这里的括号填什么呢？不可能填写…

2023年4月8日
000
卷积神经网络

Large Kernel Matters —— Improve Semantic Segmentation by Global Convolutional Network（GCN全局卷积网络）

作者认为语义分割的两个挑战是分类和定位，而这两个挑战又是比较对立的。对于分类问题，模型需要有变形和旋转不变形，而对于定位问题，模型有需要对变形敏感。提出的GCN遵循两个主要原则： 1、对定位问题，模型需要全卷积来获得定位信息，不能有全连接或是全局池化层。 2、对分类问题，需要有大的卷积核来连接特征图和每个像素的分类器此外还添加了边界精细块（boundar…

2023年4月5日
000
基于候选区域的深度学习目标检测算法R-CNN，Fast R-CNN，Faster R-CNN

参考文献 [1]Rich feature hierarchies for accurate object detection and semantic segmentation [2]Fast R-CNN [3]Faster R-CNN: towards real-time object detection with region proposal netw…

目标检测 2023年4月6日
000

合作推广

合作推广

返回顶部