摘要

特征对于显著物体检测很重要,现有方法主要集中在设计复杂的结构以合并多级特征并滤除混乱的特征上。而 Progressive Feature Polishing Network(PFPN)
是一个简单而有效的框架,用于逐步修饰多级特征,使其更加准确和具有代表性。通过以循环方式使用多个特征修饰模块(Feature Polishing Modules,FPM),能够检测出具有精细细节的显著物体,而无需任何后处理。FPM通过直接合并所有更高级别的上下文信息来并行更新每个级别的功能。此外,它可以保留特征图的尺寸和层次结构,这使其可以灵活地与任何基于CNN的模型集成。经验实验表明,随着FPM数量的增加,结果单调地变得更好。在各种情况下,PFPN在各种评估指标下的五个基准数据集上的性能远远优于最新方法。

简介

得益于CNN的层次结构,深度模型可以提取包含低级局部详细信息和高级全局语义的多级特征。为了利用详细的语义信息,可以应用多级上下文信息与不同级别特征的级联或逐元素添加的直接集成。但是,由于特征可能在某些级别上混乱且不准确,因此这种简单的特征集成往往会得到次优的结果。因此,最新的有吸引力的进展集中在设计这些多级特征的复杂集成上。

多级特征复杂集成工作的弊端

但是,当前的方法存在许多的弊端,从三个方面来分析:
(1)许多方法采用U-Net之类的结构,即在特征聚合期间信息从高层次流向低层次,而BMPM使用在连续级别之间传递的双向消息来合并语义概念和详细信息。由于会引起长期依赖问题,因此在多级功能之间间接执行的集成可能会不够用。
(2)其他工作以从浅到深的方式递归完善了预测结果以补充细节。但是,预测的显著性图丢失了丰富的信息,并且精炼的能力受到限制。
(3)尽管可以通过设计复杂的结构以合并多级功能来引入有价值的先验知识,但此过程可能很复杂,并且结构可能缺乏通用性。

PFPN设计基本思路

为了充分利用语义和详细信息,提出一种新颖的渐进特征修饰网络(Progressive Feature Polishing Network,PFPN) ,用于显著物体检测,该网络既简单又整洁,但却有效。
首先,PFPN采用循环方式逐步并行地修饰每个级别的特征。随着逐渐完善,混乱的信息将被丢弃,多层次的功能将得到纠正。由于这种并行结构可以将功能级别保持在骨干网中,因此可以轻松应用一些常见的解码器结构。在一个特征修饰步骤中,通过直接融合所有更深层次的特征来更新每个层次特征。因此,高级语义信息可以直接集成到所有低级功能中,以避免长期依赖问题。综上所述,渐进特征修饰网络极大地改善了多级表示,即使使用最简单的级联特征融合,PFPN也可以很好地准确检测出显著物体。

主要工作总结

(1)提出了一种用于显著物体检测的新颖的多级表示细化方法,以及一种简单整洁的PFPN框架,以一种递归的方式逐步完善这些特征。
(2)对于每个修饰步骤,建议使用特征修饰模块(Feature Polishing Module,FPM)完善表示,以保留特征图的尺寸和层次结构。它直接将高级语义信息集成到所有低级功能中,以避免长期依赖问题。
(3)实证评估表明,提出的方法在各种评估指标下,在五个基准数据集上明显优于最新方法。
显著性目标检测之Progressive Feature Polishing Network for Salient Object Detection(PFPN)
图1:具有渐进抛光特征的结果示意图。
(a)原始图像。
(f)基本事实。
(b)-(e)分别由T = 0至3 FPM的PFPN预测的显著性图。

具体方法分析

PFPN概述

提出了用于显著物体检测的Progressive Feature Polishing Network(PFPN)。此体系结构的概述如图2所示。模型由四种模块组成:骨干,两个过渡模块( Transition Modules,TM),一系列T特征修饰模块(T Feature Polishing Modules,FPM)和融合模块(Fusion Module,FM)。
显著性目标检测之Progressive Feature Polishing Network for Salient Object Detection(PFPN)
图2:提出的渐进特征修饰网络(PFPN)的概述。PFPN是一个深度完全卷积的网络,由四种模块组成:骨干,两个过渡模块(TM),一系列T特征抛光模块(FPM)和融合模块(FM)。说明了以ResNet-101为骨干且T = 2的实现。对于大小为256x256的输入图像,多级特征首先由主干提取,然后由TM1转换为相同尺寸。然后,通过两个FPM逐步修饰特征。最后,它们被TM2上采样到相同的大小,并连接起来以在FM中定位显着对象。
首先将输入图像馈入骨干网络以提取多尺度特征。骨干结构的选择是灵活的,本文使用ResNet-101与以前的工作保持一致。在实验中也报告了VGG-16版本的结果。具体来说,可以通过一系列以2为步长的下采样操作将ResNet-101网络分为五个块。这些块的输出用作多级特征图:Conv-1 ,Res-2,Res-3,Res-4,Res-5。为了减少特征尺寸并保持实施整洁,这些特征图会通过第一个转换模块(图2中的TM1)传递,在该模块中,每个级别的特征都并行转换为相同数量的尺寸,例如256个通过1x1卷积实现在获得具有相同尺寸的多级特征图之后,依次对这些特征执行一系列的T特征修饰模块(FPM),以逐步改进它们。图2显示了一个T = 2的示例。在每个FPM中,将高级特征直接引入所有低级功能以进行改进,这是有效的,并且比间接方式显着减少了信息丢失。 FPM的输入和输出具有相同的尺寸,并且所有FPM共享相同的网络结构。为每个FPM使用不同的参数,以期望可以逐渐学习专注于越来越多的细节。实验表明,T = 2的模型优于最新模型,并且具有20 fps的快速速度,而显著性预测的精度在T = 3时收敛,而对T = 2的影响很小。第二个转换模块(图2中的TM2)由双线性上采样和随后的1x1卷积组成,以将所有特征插值到原始输入分辨率并将它们的尺寸减小到32。最后,融合模块(FM )用于集成多尺度特征并获得最终的显著图。由于在FPM之后可以更精确地表示,因此可以使用简单的串联策略来实现FM。该网络以端到端的方式进行培训。

特征修饰模块(Feature Polishing Module,FPM)

特征修饰模块(FPM)在PFPN中起着核心作用。FPM是一个简单而有效的模块,可以与任何深层卷积骨干结合使用以完善特征表示。 它保留了CNN生成的表示的多层次结构(例如主干或先前的FPM),并学习使用剩余连接更新它们。
显著性目标检测之Progressive Feature Polishing Network for Salient Object Detection(PFPN)
图3:带有残余连接的FPM块的详细实现的示意图。N = 5,k = 3的示例,即图2中的FPM1-3和FPM2-3。

融合模块(Fusion Module,FM)

使用融合模块(FM)最终集成了多级功能并检测了突出的对象。 由于完善的功能,FM可以非常简单。 如图2所示,TM2的多级特征首先被串联,然后被馈入两个具有3x3内核的连续卷积层。 最后,应用1x1卷积层,然后再加上S型函数,以获得最终的显著性图。

实验细节

使用最终预测的显著性图和地面真实性之间的交叉熵损失来端到端训练模型。继先前的工作之后,还使用了边输出来计算辅助损失。 详细地,在融合模块之前对多级特征图执行1x1卷积层以获得一系列中间结果。
显著性目标检测之Progressive Feature Polishing Network for Salient Object Detection(PFPN)
s:模型的最终结果。
si:第i个中间结果。
g:基本事实。
权重根据经验设置,以偏向最终结果。

实验结果

显著性目标检测之Progressive Feature Polishing Network for Salient Object Detection(PFPN)

表1:对5种具有MAE(越小越好),最大/平均值F测量值(越大越好)和S-measure(越大越好)的数据集,使用不同方法进行的定量比较。 最好的三个结果以红色,蓝色和绿色显示。 报告了基于ResNet101(He et al.2016)和VGG16(Simonyan and Zisserman 2014)的T = 2方法的结果。
显著性目标检测之Progressive Feature Polishing Network for Salient Object Detection(PFPN)
图4:在五个基准数据集上,该方法和其他最新方法的阈值不同的PR曲线