MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving

这里讲视频动作识别中的 two stream networks 框架应用于无人驾驶中的目标检测,视频分析中的 motion and appearance cues
无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving

本文的 contributions 主要以下三点:
1)提出了一个新颖的多任务学习系统用于无人驾驶,它可以融合 motion and appearance cues
2)这个系统同时检测车辆和运动分割
3)我们提出了一个方法,可以将 KITTI dataset 转出本系统需要的训练数据,我们称得到的数据库为 KITTI MOD

下面首先来看看 KITTI MOD Dataset 的生成
无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving
对于车辆我们主要利用了 odometry information and annotated 3D bounding boxes ,odometry information 可以帮助我们将相机的速度得到。从 3D bounding boxes 我们可以得到 2D bounding boxes,根据 3D centroids 我们可以估算出车辆的速度,根据这个速度结合相机的速度,我们可以判断出车辆是否运动。我们可以将运动车辆区分出来。

MODNet Two Stream Multi-Task Learning Architecture
无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving
采用 VGG16 网络,输入 RGB图像和 光流场

A detector similar to the detection decoder in [26] denoted as FastBox is used. It is based on Yolo[22] as a single shot detector utilizing the first 15 convolutional layers from VGG16
损失函数定义如下
无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving

Experiment

无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving

无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving

无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving

无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving