基于视频的目标检测

一. 提出背景

目标检测在图像处理领域有着非常大的占比，过去两年，深度学习在Detection的持续发力，为这个领域带来了变革式的发展：一方面，从 RCNN 到 Fast RCNN，再到
Faster RCNN，不断刷新 mAP；另一方面，SSD、YOLO 则是将性能提高到一个非常高的帧率。

对于视频来讲，相邻帧目标之间存在明显的上下文关系，这种关系在技术上的表现就是 Tracking，研究过跟踪的童鞋都应该知道经典算法 TLD，通过 Tracking-Learning-Detection
学习目标的帧间变换，并进行 Location。

基于视频的目标检测要解决的是同样的问题，因为变形、遮挡、运动Blur 等因素导致目标在中间帧无法检测到（Appearence 发生很大变化），可以从下图看到，基于 still-image 的方法在某些帧的检测置信度很低。

VID(object-detection-from-video) 在2015年已成为一个 Challenge 方向，主要思路是结合帧间的 Context 信息、Tracking信息，接下来我们要讲的算法 TCNN。

论文名称： T-CNN: Tubelets with Convolutional Neural Networks for Object Detection from Videos

二. T-CNN

论文下载：【arvix】

代码下载：【Github】

闲话不说，直接给出框架图：

算法分为四个步骤：

1）静态图片检测

基于 Still-image 的检测方法，里面用到了 DeepID-Net（基于RCNN的改进）和 CRAFT（Faster RCNN的改进），没听过的童鞋应该也没有多大必要学，理解为港中文的小伙伴愿意自恋的用自家的东西，而且还两个都用求个Average，也是醉了。

用的时候直接追求精度的话用 Faster就可以了，需要实时应用还是选择 SSD或YOLO，很多基于经典方法的所谓改进其事可以忽略了。

2）上下文抑制和运动传播

  上下文抑制（Multi-Context Suppression）用来降低误检（False Positive），即降低置信度（Score）比较低的 Detection。

可以看到，对应图片中的主体部分 Keep 的比较好，其余 Low-Confidence 部分被抑制。



  运动传播（Motion-guided propagation）用来降低漏检（False Negtive），通过相邻帧之间的运动信息，将当前帧的 Location和置信度传递给相邻帧。

作者在 Paper 里面用到了 Location区域对应的光流向量来进行判断，来看效果：



PS：根据作者对光流法的使用，受背景影响很大，一般达不到上图的效果，大家理解这个意思就好了。

3）Tubelet Re-Scoring

基于 Tracking 的结果重新计算得分，分为三个子步骤：

a）High Confidence Tracking

高质量的跟踪是前提，里面有个假设条件，如果跟踪目标的变化导致置信度低于某个阈值时（比如0.1），跟踪停止，这是避免跟踪错误的一种方法。

b）Spatial Max-pooing

空间最大值采样，是根据 Tracking结果，对每个Location在其周围进行 Detection 的目标比对，IOU>0.5 被重新定义为目标位置。

这种方法是将更信任 Detetcion的一种方法，可以有效矫正目标的Location位置。

c）Tubelet classification and rescoring

根据 Tracking 目标串的 Top-k 进行分类，并映射到 Positive［0.5,1］和 Negative [0,0.5]，可以有效增加正负样本的 Margin。

4）模型合并

包括两部分，建议框合并（Proposal Combination）和非最大值抑制（Non-Maximum Suppression）。

建议框合并的方法有很多，按照置信度，直接都加起来等等，NMS（非最大值抑制）用来消除重复边框，这里不再展开。

> 论文实现效果

关于这篇论文，读完之后发现水分很大，拼凑的地方比较多，只为了发篇论文，并无亮点，如果我是评委，不会给过的。

饶是如此，VID的第一篇文章，还是把它介绍出来，了解其思想即可不必深究，本人的观点是，在 Real-Time 系统之中基于Detection & Tracking的方法结合就够了，只用到前帧信息（后面帧信息不建议用）。

三. Deep Feature Flow

论文下载：【arvix】

代码下载：【Github】

MSRA 出品，突然感慨这是没有了孙剑、何凯明的 MSRA，虽然吹的依旧火热，不过与 FAIR、Google Brain差距也是越拉越大。

跑题了，这篇文章思路比较简单，受 Detection 效率的制约，在处理实时的视频应用上，结合光流的思路，实现特征图的帧间传播和复用。

算法要点描述为：

1）在关键帧（Key Frame）进行特征图提取

这一步是比较耗时的，因此是间隔进行的，至于是使用 Faster RCNN 还是 RFCN，网络是 ResNet-101 还是 Inception，都OK。

这里要说明，作者只是间隔固定时间做一次，没有考虑遮挡、变形、Motion Blur 等因素。

so 和上一篇一样，我们只是简单看一下思路即可。

2）帧间传播

通过下面这幅图来看，作者将任务分成两个： 特征提取 N（feat）和 分类&分割 N（task）。

耗时的特征提取 N（feat）只在关键帧 Work，非关键帧的 Feature 通过传播（Propagation）得到。

F是通过两个 Raw Frame得到的 Flow信息，作用于前面的 Feature Map，得到当前帧特征图，并用于计算 N（task）。



3）特征图映射

特征图映射是本文的最关键部分，因为高层特征和底层特征的差别，流估计的误差会使得特征形变不准确，先来看映射效果：



对应二维流场 M (i->k)，对于 p 的映射描述为变化量 δ p，即 p -> p + δ p：

特征的形变通过双线性插值实现：



其中c为特征图 f 的通道，G为双线性插值的内核，可以将 G（2D）分为两个一维内核：

文中定义了 “尺度场” 的概念，记为两帧之间的比例函数：

基于此，将特征传播函数定义为：



其中 W 通过公式1 进行计算，并乘以缩放系数S。

4）端到端训练

为了让算法达到比较好的效果，端到端（end-to-end）的训练必不可少，好处在于能够比较好的平衡误差，避免因为单独训练每一部分都挺好，结果却无法 Match 的情况，大多数 Deep Net 都会选择 end-to-end 的方法，也比较好理解。