1、 为什么要做这个研究(理论走向和目前缺陷) ?
一般融合图像和点云信息做3D目标检测的算法对相机和激光雷达联合标定的要求极高。
2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
本文要解决的问题就是如何在相机和激光雷达标定没那么准的情况的下还能保证较高的性能,归根结底就是扩大搜索空间,但也不能太大,用2D检测的目标就是限制搜索空间。具体说来就是,用2D检测器做目标检测,同时还要多预测几个参数,即目标的长宽高和航向角。依据这些预测的参数(经过一系列几何变换)可以在3D点云里找到对应的候选区域,但是,2D检测器并不能预测得很准,就导致找到的3D点云候选区域也不准,于是就要扩大搜索范围,具体说来就是将长宽高按一定比例缩放。将上述所有候选区的3D点(点太多的话做一定采样)分别投到一个基于pointnet简化的2阶段的3D目标检测器做最后的回归。
3、 发现了什么(总结结果,补充和理论的关系)?
方法很有新意,效果比F-pointNet稍微强一些。有一点没搞明白的是映射到点云里的到底是圆柱体(cylinder)还是长方体(cuboid)?如果是圆柱体好像没讲明白是如何将3D候选框转换成长方体候选区的。

摘要:本文提出的RoarNet能够联合利用图像和点云数据做3D目标检测。先用一个2D检测器RoarNet_2D在图像上预测3D位姿,以此位姿为基础寻找可能的多个候选区,然后在对应候选区的点云里用RoarNet_3D(基于PointNet)进行推断获取准确的3D框。
RoarNet不像之前的图像与点云融合做3D检测的网络比如AVOD,F-PointNet,需要将点云与图像坐标系严格对齐,而本文提出的RoarNet,即使是比较粗糙的对齐,也可以取得不错的效果。

1、 引言
做3D目标检测里很多都是将3D点云投影到BEV或者深度图等视角,这样做会导致损失部分点云信息,所以有很多算法会采取传感器融合的方式对信息进行补偿,而传感器融合对不同传感器的标定要求很高,这就是本文要解决的问题,即在相机和激光雷达标定没那么准的情况下,也能实现比较好的检测效果。
RoarNet整个的流程:1)在2D图像上预测候选框(位姿),每个目标可以对应多个候选框。2)基于候选框在3D点云的对应区域内进行采样,预测是否包含目标的得分以及3D框的初步回归。3)对第2)步筛选出来的3D框做进一步回归。4)为了评估每个检测的置信度,将3D框投影到2D图像平面计算和图像上的GT框的IOU值,此IOU值越高,置信度越高。

注:位姿:即位置+朝向,共计7个自由度,包括中心点X,Y,Z,长宽高H,W,L,以及航向角theta。

二、相关研究(略)

三.RoarNet检测器
整体架构如下:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

RoarNet_2D从2D图片中预测2D候选区及3D位姿,对于每个2D检测结果(候选框),将在3D点云里采用几何一致性搜索(geometric agreement search)来预测3D位置。具体来说,在每个目标按照几何一致性搜索可能对应多个2D 候选区中,对每个2D候选框中设置一个中心在2D框中心的3D圆柱,在3D点云中圆柱区域对应的3D点,运用RoarNet_3D预测目标的得分及3D位置。

A. RoarNet_2D
几何一致性搜索:2D网络除预测一般的类别和2D框外,还预测此3D目标宽高长W,H,L,以及航向角,根据另一篇论文(3D Bounding Box Estimation Using Deep Learning and Geometry)的结论,在3D世界坐标系下,只可能有限个位置的此目标会将此目标投影到图像上的此2D检测框。
获取3D框的公式:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

B为过约束线性方程组,b2D代表普通的2D检测器检测结果,c代表给定条件,即所有可能位置中的一个。
RoarNet_2D如下图所示:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

空间散射(Spatial scattering):由于2D图片缺乏3D信息,故用RoarNet_2D预测的3D候选框也不准,故需要考虑预测不准的情况稍微扩大搜索范围,比如通过对3D候选框适当的缩放,缩放参数s∈(0,1)实际中s=0.2,新扩展的3D框公式表达如下:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

根据如下公式限制每个预测框散射的3D候选框数目:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

其中p1、p2是s取值(比如0.5)时两个极端框(最大框和最小框)的中点坐标,m=1.6。
可视化结果如下:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

B. RoarNet_3D
网络架构:RoarNet_3D包括两个子网络,候选区生成网络(RPN)和边界框回归网络(BRN),这俩子网络都是PointNet的简化版,其结构如下图表所示。
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

4、实验
与kitti上其他方法比较:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

候选区散射参数s和objectness阈值的影响:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)

RoarNet3D网络结构和其他网络结构对比:
【3D目标检测】RoarNet: A Robust 3D Object Detection based on RegiOn Approximation Refinemen文献解读(2018)