图像语义分割正在逐渐成为计算机视觉及机器学习研究人员的研究热点。大量应用需要精确、高效的分割机制,如:自动驾驶、室内导航、及虚拟/增强现实系统。这种需求与机器视觉方面的深度学习领域的目标一致,包括语义分割或场景理解。本文对多种应用领域语义分割的深度学习方法进行概述。首先,我们给出本领域的术语及主要背景知识。其次,介绍主要的数据集及难点,以帮助研究人员找到合适的数据集和研究目标。之后,概述现有方法,及其贡献。最后,给出提及方法的量化标准及其基于的数据集,接着是对于结果的讨论。最终,对于基于深度学习的语义分割,指出未来重点并得出结论。 

细粒度分类:同一类中不同子类物体间的分类。 
难点:受视角、背景、遮挡等因素影响较大,类内差异较大、类间差异较小。

基于深度学习的物体分类可以大致分为4类:分类,对齐,不同特征相似性的判断,分区

使用通用DCNN(Deep Convolutional Neural Network,深度卷积神经网络)进行细粒度分类;

先使用DCNN进行部件定位,之后进行部位对齐;

使用多个DCNN对细粒度识别中的相似特征进行判别;

使用注意力模型定位区分性强的区域                                  

词包模型:在介绍词包模型前,我们先简单回忆下自然语言处理中的词包模型。词包在自然语言处理中是一项非常流行的代表文档的技术,它忽略了文档中词的顺序。例如,在这个模型下,"a good book"和"book good a"是一样的。词包模型应用基于词典的建模方法,每个文档像一个包(因此忽略了次序),包含了一些来着词典的词。计算机视觉的研究人员用了一个相似的思想来表示图像(这的图像可能特指一个特殊的对象,例如一张汽车的图像)。例如,把一张图像当做一个文档,从图像中提取出来的特征就相当于词(通常还需要一些额外的操作,下面会提到)。词包表示法可以作为进一步图像处理的基本步骤,如对象分类。

1.底层特征提取

    a.基于兴趣点检测:像素点、边缘、角点、一般会有一定的几何不变性,用的比较多的有Harris角点、FAST(feature from accelerated segment test)、LOG(laplacian of guassian)、DOG(difference of gaussian)。

    b.密集点提取:从图像中按照固定步长、尺度提取出大量的局部特征描述如SIFT、HOG、LBP(local binary pattern)

 

2.特征编码

    底层特征包含冗余和噪声,需要一种特征变换算法对底层进行编码,从而获得更加具有区分性、更加鲁棒的特征表达,重要的特征编码算法包括:向量量化编码,核词典编码、稀疏编码、局部线性约束编码、显著性编码、Fisher向量编码、超向量编码。

    向量量化编码:是通过一种量化的思想,使用一个较小的特征集合(视觉词典)来对底层特征进行描述,达到特征压缩的目的.向量量化编码只在最近的视觉单词上响应为1,因而又称为硬量化编码、硬投票编码,这意味着向量量化编码只能对局部特征进行很粗糙的重构. 但向量量化编码思想简单、直观,也比较容易高效实现。

   局限性:在实际图像中,图像局部特征常常存在一定的模糊性,即一个局部特征可能和多个视觉单词差别很小,这个时候若使用向量量化编码将只利用距离最近的视觉单词,而忽略了其他相似性很高的视觉单词。

   软量化编码(又称核视觉词典编码)算法,局部特征不再使用一个视觉单词描述,而是由距离最近的犓个视觉单词加权后进行描述,有效解决了视觉单词的模糊性问题,提高了物体识别的精度.

   稀疏编码通过最小二乘重构加入稀疏约束来实现在一个过完备基上响应的稀疏性.得到一个高维的高度稀疏的特征表达,大大提高了特征表达的线性可分性,仅仅使用线性分类器就得到了当时最好的物体分类结果,将物体分类的研究推向了一个新的高度上。

   局限性:稀疏编码存在一个问题,即相似的局部特征可能经过稀疏编码后在不同的视觉单词上产生响应,这种变换的不连续性必然会产生编码后特征的不匹配,影响特征的区分性能.

   局部线性约束编码它通过加入局部线性约束,在一个局部流形上对底层特征进行编码重构,这样既可以保证得到的特征编码不会有稀疏编码存在的不连续问题,也保持了稀疏编码的特征稀疏性。

   显著性编码引入了视觉显著性的概念,如果一个局部特征到最近和次近的视觉单词的距离差别很小,则认为这个局部特征是不“显著的”,从而编码后的响应也很小。编码速度也比稀疏编码快很多
   FISHER向量编码同时融合了产生式模型和判别式模型的能力,与传统的基于重构的特征编码方法不同,它记录了局部特征与视觉单词之间的一阶差分和二阶差分

   超向量编码则直接使用局部特征与最近的视觉单词的差来替换之前简单的硬投票. 这种特征编码方式得到的特征向量表达通常是传统基于重构编码方法的M倍(M是局部特征的维度).

 

3.特征汇聚

    空间特征汇聚是特征编码后进行的特征集整合操作,通过对编码后的特征,每一维都取其最大值或者平均值,得到一个紧致的特征向量作为图像的特征表达. 这一步得到的图像表达可以获得一定的特征不变性,同时也避免了使用 特征集进行图像表达的高额代价. 最大值汇聚在绝大部分情况下的性能要优于平均值汇聚,也在物体分类中使用最为广泛。由于图像通常具有极强的空间结构约束,空间金字塔匹配(spatial pyramid matching,SPM)提出将图像均匀分块,然后每个区块里面单独做特征汇聚操作并将所有特征向量拼接起来作为图像最终的特征表达.

术语及背景概念

语义分割不是一个孤立的问题,而是图像推理从粗粒度到细粒度的过程中一个自然的步骤。

  • 分类(classification),对整个输入进行预测,即预测图像中是什么物体、或者给出物体的链表如果图中有多个物体。
  • 定位或检测(localization and detection)是细粒度推测的进一步发展,不只提供物体的类别,同时提供这些类的位置,例如:图心或边界框。
  • 语义分割(semantic segmentation)进行稠密预测(dense prediction)推断每个像素点的类标签,通过这种方式,区域或物体内的像素点被标记为相应的类别。
  • 物体分割(instance segmentation):分别标记同一类的不同物体,甚至是基于部分的分割(part based segmentation),将已经分割出的类进一步分割为底层的组成部分。

像素分类问题可以被简化为以下问题:对于随机变量集合2D图片中的像素值。