1、将视频帧作为独立的图像,利用图像目标检测算法获得检测结果

2、利用视频的时序信息和上下文信息对检测结果进行修正

3、高质量的检测窗口的跟踪轨迹对检测结果修正

 

训练数据集的选取:视频帧之间存在冗余,在别的包含同样目标的数据集上进行数据抽取。

网络结构的选择:resnet+inception 的结构

时序信息进行修正: 将第v帧的检测结果传向v-1, v+1帧

利用跟踪信息进行修正:对目标进行跟踪,生成跟踪轨迹

参考:ILSVRC2016目标检测任务回顾(下)--视频目标检测(VID)