COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

2023年4月8日上午9:28 • 目标检测

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

COCO 数据集上的目标检测精度的最高纪录已经有将近一年时间停留在53.3 mAP，曾经报告达到过这一高度的算法有：

1）Cascade Mask R-CNN(Triple-ResNeXt152, multi-scale) ；

2）ResNeSt-200DCN (multi-scale)；

均使用了多尺度测试，

它们分别来自论文：

1）CBNet: A Novel Composite Backbone Network Architecture for Object Detection， AAAI 2020；

2）ResNeSt: Split-Attention Networks， arXiv 2020；

这两篇论文均为在主干网上做文章，尤其是后者，其提出的主干网ResNeSt不仅大幅提高了目标检测的精度，在语义分割、实例分割中也登顶COCO数据集。

这不由得使我们思考，现有目标检测、语义分割等的任务架构是不是已经较为完备，而研究更好的主干网、增强网络的表达能力是提升精度更好的选择？

今天新出的文章 DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution ，则再一次在主干网上做文章，其在COCO数据集上的单尺度测试精度已经达到53.3mAP（53.3真是一个神奇的数字！），而多尺度测试中 DetectoRS (ResNeXt-101-32x4d, multi-scale) 达到目前所有文献报告的最高精度：54.7mAP！代码已开源。

不仅如此，在COCO数据集上的实例分割和全景分割任务中，DetectoRS 也一举登顶，成为目前目标检测、语义分割、全景分割领域的全能王者！

DetectoRS 作者信息：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

第一作者 Siyuan Qiao目前是约翰斯霍普金斯大学博士生，第二作者是著名的DeepLab 系列算法主要作者谷歌公司研究员Liang-Chieh Chen。

主要思想

DetectoRS的思想来自成功的目标检测算法如Faster RCNN 、Cascade R-CNN所体现出的哲学：looking and thinking twice （无论是两阶段还是级联检测器，都体现出信息的反复利用和提精）作者是把这一思想应用于主干网的改进上，主要创新如图：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

1）宏观层次，提出递归特征金字塔网络（RFP，Recursive Feature Pyramid），集成FPN的反馈连接到主干网，使得主干网再训练得到的特征更好的适应检测或分割任务。

2）微观层次，提出可切换的空洞卷积（SAC，Switchable Atrous Convolution）替换主干网上的标准卷积，使得模型可自适应选择感受野。

以上新技术带来的改进是显著的，作者将其应用于实例分割算法HTC，在其他不变的情况下，检测和分割精度提升明显，如图：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

递归特征金字塔网络（RFP）

大家所熟知的特征金字塔网络（FPN）是将主干网不同阶段（stage）特征组成特征金字塔，如下图（a），而RFP则添加了对于目标检测任务的梯度向主干网方向回传，如下图（b）。

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

图中（c）是将这个递归的过程展开的示意图，FPN反馈连接到主干网每个阶段的第一个block，使用的是ASPP结构（图中绿色圆点），图中画出的是2-step 序列RFP，FPN之间也进行了特征融合（图中红色部分）。

反馈连接网络ASPP：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

RPN中的融合模块：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

作者最终实验中使用的就是2-step RFP。

这种递归特征金字塔网络有什么好处呢？很明显它能够使得目标检测的错误回传信息更直接的反馈调整主干网的参数。

可切换的空洞卷积（SAC）

空洞卷积可增大网络感受野，这已经被证明对检测和分割任务是有效的。

而作者提出的可切换的空洞卷积（Switchable Atrous Convolution）则使得网络训练时尺度选择更灵活，如下图：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

不同空洞率的空洞卷积捕捉到不同感受野的目标，网络可以学习到一个开关，以自适应调整选择哪个感受野的卷积结果。

其网络结构如图：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

作者将主干网所有标准卷积替换为可切换的空洞卷积，而且为了更方便地从ImageNet预训练模型给主干网赋值，作者发明了可兼容标准卷积的可切换空洞卷积，具体细节请查看原论文。

实验结果

作者在消融实验中对上述两种改进进行了效果评估，如图：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

可见HTC算法+RFP或者HTC+SAC均获得了大幅的精度提升，且相比较之下HTC+SAC的提升幅度更大，而同时加上RFP与SAC，取得了最高的精度。

一些检测结果示例：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

下图为DetectoRS使用不同类型主干网与其他SOTA算法的比较：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

使用ResNeXt-101-32x4d主干网，DetectoRS 取得了 COCO 目标检测单尺度和多尺度目前的最高精度，分别达到53.3mAP和54.7mAP。

在COCO实例分割和全景分割任务中的结果：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

同样获得了目前最高的精度。

速度：在NVIDIA TITAN RTX显卡上运行帧率3.9fps。

最后让我们一起回顾一下COCO数据集目标检测近几年的SOTA（请点击并横屏查看大图）：

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

图片来自paperswithcode.com

DetectoRS 已经站在风口浪尖，不知下一个出现在最右上角的是谁呢？

论文地址：

https://arxiv.org/abs/2006.02334

代码地址：

https://github.com/joe-siyuan-qiao/DetectoRS

在我爱计算机视觉公众号后台回复“DetectoRS”，即可收到论文原文和代码下载。

DetectoRS 等论文改进主干网，提升网络表达能力，实现新高度，结果很漂亮，但从工程的角度，最简单、直接改进网络表达能力的是增加数据规模、提高数据质量，这也是谷歌一直在做的，推荐阅读：

谷歌发布最先进的计算机视觉迁移模型BigTransfer（BiT）

END

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

备注：目标检测

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

目标检测交流群

2D、3D目标检测等最新资讯，若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:[email protected]

网站:www.52cv.net

COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

在看，让更多人看到 COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：COCO 54.7mAP！DetectoRS目标检测：改进主干网，成就新高度！ - Python技术站

人工智能目标检测

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

One-stage目标检测最强算法 ExtremeNet翻译【Bottom-up Object Detection by Grouping Extreme and Center Points】

上一篇 2023年4月8日上午9:27

干货 | 一文总结旋转目标检测全面综述：论文方法与代码

下一篇 2023年4月8日上午9:50

《python机器学习—预测分析核心算法》：理解数据

参见原书2.1-2.2节新数据集就像一个包装好的礼物，它充满了承诺和希望！但是直到你打开前，它都保持神秘！一、基础问题的架构、术语，机器学习数据集的特性通常，行代表实例，列代表属性特征属性，实例中用于预测的数据其他名称：预测因子特征独立变量输入标签，需要预测的数据其他名称：结果目标依赖变量响应 2.1.1属性和…

机器学习 2023年4月11日
000
深度之眼PyTorch训练营第二期 —5、Dataloader与Dataset 以及 transforms与normalize

一、人民币二分类描述：输入人民币，通过模型判定类别并输出。数据：四个子模块　　　　数据收集 -> img,label 原始数据和标签　　　　数据划分 -> train训练集 valid验证集 test测试集　　　　数据读取 -> DataLoader ->(1)Sampler(生成index) (2)Dataset(读取…

PyTorch 2023年4月8日
000
目标检测中的正负样本与人工标注的框框一样吗？

本人学术小渣，最开始研究的是目标检测的指标，里面用到了ground Truth，使用预测的边界框与ground Truth边界框的交并比（即IoU）来量化预测结果的准确度。我曾经一度以为正样本就是ground Truth边界框，负样本就是在背景中随机采样到的边界框。直到最近回顾目标检测算法，才慢慢开始明白。参考链接，描述如下：参考faster以及SSD两种…

目标检测 2023年4月5日
000
目标检测

目标检测中特征融合技术（YOLO v4）（上）

目标检测中特征融合技术（YOLO v4）（上）论文链接：https://arxiv.org/abs/1612.03144 Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie PANet（Path Aggregation Networ…

2023年4月6日
000
Tensorflow中dense（全连接层）各项参数

全连接dense层定义在 tensorflow/python/layers/core.py. 1. 全连接层 tf.layers.dense dense( inputs, units, activation=None, use_bias=True, kernel_initializer=None, bias_initializer=tf.zeros_init…

tensorflow 2023年4月8日
000
Keras

好书快翻–《Python深度学习第二版》第三章 Keras和TensorFlow简介

博主有话说：首先感谢您阅读这篇博客！博主做大数据技术，平时喜欢阅读英文原版大数据技术书籍，并翻译成中文，分享出来。如要及时看到翻译的章节，请关注博主微信公众号登峰大数据，微信号 bigdata_work 本章包括: 详解TensorFlow、Keras和它们之间的关系建立一个深度学习的工作空间核心深度学习概念如何转化为Keras和TensorFlo…

2023年4月8日
000
循环神经网络入门的一个总结

1、常用神经网络结构中有个叫RNN的，即循环神经网络。假设有n个cell，从第一个cell开始说起。 state 0+time0 进入cell ，cell处理，处理后的结果，可以分成两个相同的，一个用来输出该层的输出，另一个送给下一个cell，当然，分成两个相同的之后，想怎么变就怎么变。对第二个cell来说，第一次的输出和当前时间，是他的输出，就这样，上…

循环神经网络 2023年4月5日
000
Keras

keras入门实例：非线性拟合求拟合系数

目标要做的事情非常简单，就是用Keras去拟合函数y=x(1−x)(a0+a1x+a2x2)y=x(1-x)(a_0+a_1x+a_2x^2)y=x(1−x)(a0+a1x+a2x2)并求其系数a0,a1,a2a_0,a_1,a_2a0,a1,a2。数据已经给你了，放在csv文件中，没有header，两列多行，很轻易就能读进来。乍一看，神经网…

2023年4月8日
000

合作推广

合作推广

返回顶部