Resnest：注意力+分组卷积的融合

2023年4月7日下午11:33 • 卷积神经网络

ResNeSt是亚马逊的李沐团队的paper，最近在各个任务上刷榜了，但却被ECCV2020

strong reject了，在知乎上也是引起了热议，据李沐说这个网络花了一百万刀！我看完

以后感觉是ResNeXt + SKNet的组合，训练网络的很多tricks在工程上还是很有意义

的。

讨论：https://www.zhihu.com/question/388637660

ResNeXt

何凯明团队提出，非常的简单：将resnet中3*3的卷积，替换为分组卷积。然后就

没有了。。。。说实话就这个点换我是发不出来paper的，可见讲好故事有多重要。

论文里增加了一个cardinality（就是group），并讨论了相较于增加网络的宽度

和深度，简单的增加group会更好。一句话就是，split-transform-merge。

Resnest：注意力+分组卷积的融合

网络结构如图

Resnest：注意力+分组卷积的融合

实现就更简洁了 https://github.com/weiaicunzai/pytorch-cifar100/blob/master/models/resnext.py

       C = CARDINALITY #How many groups a feature map was splitted into

        #"""We note that the input/output width of the template is fixed as 
        #256-d (Fig. 3), We note that the input/output width of the template 
        #is fixed as 256-d (Fig. 3), and all widths are dou- bled each time 
        #when the feature map is subsampled (see Table 1)."""
        D = int(DEPTH * out_channels / BASEWIDTH) #number of channels per group
        self.split_transforms = nn.Sequential(
            nn.Conv2d(in_channels, C * D, kernel_size=1, groups=C, bias=False),
            nn.BatchNorm2d(C * D),
            nn.ReLU(inplace=True),
            nn.Conv2d(C * D, C * D, kernel_size=3, stride=stride, groups=C, padding=1, bias=False),
            nn.BatchNorm2d(C * D),
            nn.ReLU(inplace=True),
            nn.Conv2d(C * D, out_channels * 4, kernel_size=1, bias=False),
            nn.BatchNorm2d(out_channels * 4),
        )

为什么如此简单的改变，效果就会好呢？paper里也论证了，其实就是分组卷积带

来的增益，我的理解是分组卷积，提取出了更好的特征，知乎上也有讨论 https://www.zhihu.com/question/323424817

SKNet

SENet的升级版，连名字都是致敬。话说SENet真是个好东西，用过都说好。

直接上图,可以看出，论文使用了多路分支来做attention。一路为3*3，一路为5*5（其实用的是3*3的空洞卷积来代替），

注意：两路用的都是分组卷积（resnxt的做法）。然后两路直接融合（elementwise），然后一起去做SE，再将attention拆分，

分别去对上面的两路做attention。注意：一起经过softmax后，二者attention相加为1。最后将attention之后的结果再做融合。

Resnest：注意力+分组卷积的融合

caffe的网络结构：https://github.com/implus/SKNet/blob/master/models/sknet50.prototxt

作者在知乎上的文章：https://zhuanlan.zhihu.com/p/59690223

ResNeSt

终于来到了正主。先来一组对比图。可以看出，各组网络的核心区别，还是在split attention上。

Resnest：注意力+分组卷积的融合

split attention模块。首先将各分组做融合，然后是SE: GP+FC1+FC2。注意：和sknet一样，这里都是用conv1*1来代替fc，

但是resnest用的是组卷积，然后对组卷积做rsoftmax(按组来做softmax)得到attention，最后去做融合。看到这里，我觉得

确实和sknet很像，作者本人也承认了这点，可以说sknet是resnest的一个特例。

https://www.zhihu.com/question/388637660

Resnest：注意力+分组卷积的融合

核心代码https://github.com/zhanghang1989/ResNeSt/blob/master/resnest/torch/splat.py

RegNet

最后说一说regnet，也是何凯明团体提出，使用的是搜索的网络，对标的是谷歌家的EfficientNet，

搜索的是ResNeXt（搜索包括了group）。网络搜索没做过，就说下几个有意思的结论吧

1、通过activations（不是激活函数），而不是flops来衡量速度。这也是这篇paper吸引我的地方，

参考https://zhuanlan.zhihu.com/p/122943688。

2、swish在小模型上更好，relu更适合大模型（更多flops）。尤其是使用depthwise conv + swish，

效果比dc+relu更好。

实现可参考https://github.com/signatrix/regnet

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Resnest：注意力+分组卷积的融合 - Python技术站

人工智能卷积神经网络

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

深度学习面试题25：分离卷积(separable卷积)

上一篇 2023年4月7日下午11:32

Deep Learning.ai学习笔记_第四门课_卷积神经网络

下一篇 2023年4月7日下午11:33

机器学习模型ML

“其实我是做机器学习模型的。” “什么模型？拿出来给大家看看啊！” 如果你是一个机器学习（ML）程序员，向爸妈、亲友或者客户介绍自己的职业时，可能会遇到这样的尴尬。现在有了斯坦福大学出品的 Gradio ，你真的可以把自己的ML模型“搬”出来了。只需几行代码，你就可以创建一个简单的网页，即使完全不会代码的爸妈，也能用拖拽操作体验你的ML模型。除此之外，…

机器学习 2023年4月13日
000
loj #161 子集卷积

求不相交集合并卷积 sol：集合并卷积？看我 FWT！交一发，10 以上的全 T 了然后经过参考别人代码认真比对后发现我代码里有这么一句话： rep(s, 0, MAXSTATE) rep(i, 0, n) rep(j, 0, n – i) h[i + j][s] = inc(h[i + j][s], mul(f[i][s], g[j][s]));…

卷积神经网络 2023年4月7日
000
PyTorch 之 DataLoader

DataLoader DataLoader 是 PyTorch 中读取数据的一个重要接口，该接口定义在 dataloader.py 文件中，该接口的目的：将自定义的 Dataset 根据 batch size 的大小、是否 shuffle 等封装成一个 batch size 大小的 Tensor，用于后面的训练。通过 DataLoader，使得我们在准备…

PyTorch 2023年4月8日
000
资源 | 数十种TensorFlow实现案例汇集：代码+笔记 http://blog.csdn.net/dj0379/article/details/52851027 资源 | 数十种TensorFlow实现案例汇集：代码+笔记

资源 | 数十种TensorFlow实现案例汇集：代码+笔记这是使用 TensorFlow 实现流行的机器学习算法的教程汇集。本汇集的目标是让读者可以轻松通过案例深入 TensorFlow。这些案例适合那些想要清晰简明的 TensorFlow 实现案例的初学者。本教程还包含了笔记和带有注解的代码。项目地址：https://github.com/ayme…

tensorflow 2023年4月8日
000
机器学习—python环境搭建

一安装python2.7 去https://www.python.org/downloads/ 下载，然后点击安装，记得记住你的安装路径，然后去设置环境变量，这些自行百度一下就好了。由于2.7没有pip ,所以最好装下。这是下载地址 https://pypi.python.org/pypi/pip#downloads。下载好之后点击开始，搜索 CMD .…

机器学习 2023年4月12日
000
Caffe

Caffe训练时Loss=87.3365问题

如图，在开始训练后， loss升高到87.3365后保持不变。这个问题是因为梯度爆炸导致的。 loss -= log(std::max(prob_data[i * dim + label_value * inner_num_ + j], Dtype(FLT_MIN))); 在softmax_loss_layer.cpp的原码中，loss的最大值由FLT_MI…

2023年4月8日
000
Linux下conda配置虚拟环境：python + pytorch

Linux下conda配置虚拟环境：python + pytorch 默认已经安装好conda 创建虚拟环境 conda创建并激活虚拟环境命令： conda create -n your_env_name python=2.7/3.6source activate your_env_name 其中，-n中n表示name，即你创建环境的名字。之后如果忘记自己…

PyTorch 2023年4月8日
000
Keras

keras中Convolution1D的使用

转载weixin_34132768 最后发布于2017-03-07 20:22:00 阅读数 348 收藏展开这篇文章主要说明两个东西，一个是Convolution1D的介绍，另一个是model.summary()的使用。首先我先说下model.summary()，此方法可以打印出模型的信息，读者可以查看每层输出内容。接下来就说下Convoluti…

2023年4月6日
000

合作推广

合作推广

返回顶部