作者在论文中的一张图
- 采用了24层卷积(1+1+4+10+6+2)
- 通过填充保证卷积层前后的长宽不变,除了第一个7*7卷积因为步数为2所以长宽减半,输出长宽的计算公式如下
in为输入的图像长宽,p为填充大小,f为卷积核的长宽,s为步长
- 作者在论文中提出该网络借鉴了GoogLenet网络,而GoogLenet里面Inception v1的网络结构如下
所以我觉得这里的网络应该也是(以图中第三次卷积为例)
- 1*1卷积核用来降维,以图中第三次卷积为例
降维前计算量:3*3*256*192+3*3*512*256=1622016
降维后计算量 1*1*128*192+3*3*256*128+1*1*256*192+3*3*512*256=1548288
- 最后输出7*7*30
可以认为把一张图片经过24层卷积,提取特征之后,分为了7*7个格子
如上图,用上面30个元素标记每个格子,30=5+5+20,5+5 表示有两个anchor box, 5包括(x,y)目标检测框的起点坐标,(w,h)表示目标检测框的长和宽,Pr(Object)表示置信度,可以认为表示这个anchor box里面有没有物体,20表示是哪一类物体(猫?狗)这里使用独热编码的方式。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:目标检测 — YOLO算法卷积网络图 - Python技术站