目标检测 --- YOLO算法卷积网络图

 作者在论文中的一张图

附上论文中英翻译版http://noahsnail.com/2017/08/02/2017-08-02-YOLO%E8%AE%BA%E6%96%87%E7%BF%BB%E8%AF%91%E2%80%94%E2%80%94%E4%B8%AD%E8%8B%B1%E6%96%87%E5%AF%B9%E7%85%A7/

  • 采用了24层卷积(1+1+4+10+6+2)
  • 通过填充保证卷积层前后的长宽不变,除了第一个7*7卷积因为步数为2所以长宽减半,输出长宽的计算公式如下

目标检测 --- YOLO算法卷积网络图

in为输入的图像长宽,p为填充大小,f为卷积核的长宽,s为步长

  • 作者在论文中提出该网络借鉴了GoogLenet网络,而GoogLenet里面Inception v1的网络结构如下

目标检测 --- YOLO算法卷积网络图

所以我觉得这里的网络应该也是(以图中第三次卷积为例)

目标检测 --- YOLO算法卷积网络图

  • 1*1卷积核用来降维,以图中第三次卷积为例

降维前计算量:3*3*256*192+3*3*512*256=1622016

降维后计算量   1*1*128*192+3*3*256*128+1*1*256*192+3*3*512*256=1548288

  • 最后输出7*7*30

可以认为把一张图片经过24层卷积,提取特征之后,分为了7*7个格子

目标检测 --- YOLO算法卷积网络图

 如上图,用上面30个元素标记每个格子,30=5+5+20,5+5 表示有两个anchor box, 5包括(x,y)目标检测框的起点坐标,(w,h)表示目标检测框的长和宽,Pr(Object)表示置信度,可以认为表示这个anchor box里面有没有物体,20表示是哪一类物体(猫?狗)这里使用独热编码的方式。