Fast Point R-CNN | 一个或许跟PointRCNN和Fast RCNN都没啥关系的点云目标检测网络

2023年4月8日下午3:14 • 目标检测

【导读】这是一篇来自ICCV2019的论文，由港中文的贾佳亚教授实验室完成。虽然名字很接近，但是Fast Point R-CNN不仅跟Fast R-CNN没有任何关系，它跟Point R-CNN也没太大关系，找前景点，做精细回归思想相近。三者唯一的共同点就是它们三个都是two-stage网络，但是网络结构完全不同。

Fast Point R-CNN | 一个或许跟PointRCNN和Fast RCNN都没啥关系的点云目标检测网络

如果要强行归类的话，Fast Point R-CNN应该算是VoxelNet一派的。这一点从网络结构图中可以看出。网络的第一阶段叫做VoxelRPN，类似于VoxelNet/SECOND的网络结构，用来对体素化的点云进行处理，网络由3D卷积层+2D的2D的RPN构成；网络的第二阶段是RefinerNet，将原始点云加入进来，并融入注意力机制，提高检测效果。从这个角度来看，这个网络应该叫Refiner-VoxelNet或许更为贴切（我胡说的）。

网络结构

下面仔细看下网络结构，首先是第一阶段的VoxelRPN：网络由四个BLOCK构成，第一个BLOCK由3D卷积核构成，用来对体素进行处理，逐渐把Z维度上降低到1，也就成了2D特征图了。后面三个BLOCK用来对这个2D特征图进行进一步的特征提取和融合。这里笔者根据网络结构计算了每个层的输出特征图的尺寸。

Fast Point R-CNN | 一个或许跟PointRCNN和Fast RCNN都没啥关系的点云目标检测网络

但是，考虑到体素化处理点云会丢失一定的定位信息，影响目标检测精度。因此，网络增加了RefinerNet用来进一步优化结果。

Fast Point R-CNN | 一个或许跟PointRCNN和Fast RCNN都没啥关系的点云目标检测网络

RefinerNet中引入了特征增强和注意力机制，主要由MLP构成。网络以包围框特征和点云坐标作为输入。通过一个独特的fusion module来进行特征的融合增强。先将这两种特征进行拼接并经过两层MLP处理，然后与包围框特征得到的权值进行逐元素相乘，就这样利用注意力机制来增强了网络的定位能力。最后经过MLP后直接计算出包围框8个顶点的坐标。

Fast Point R-CNN | 一个或许跟PointRCNN和Fast RCNN都没啥关系的点云目标检测网络