地平线机器人提出Anchor free、NMS free的3D目标检测算法

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

这是一篇由地平线机器人发表在CVPR2020 Workshop的文章，主要是将Anchor Free的思想应用于3D目标检测领域。同时，提出了一种NMS Free的思想，让模型在推理阶段更方便部署到嵌入式设备中。整体思想较为新颖，期待开源。

论文地址：https://arxiv.org/pdf/2006.12671.pdf

推荐3D目标检测框架：https://github.com/poodarchu/Det3D

在嵌入式系统上运行的高效点云3D目标检测对于许多机器人应用（包括自动驾驶）都非常重要。大多数以前的工作试图使用基于Anchor的检测方法来解决它，这有两个缺点：后处理相对复杂且计算量大；调整Anchor点参数非常棘手，并且是一个tricky。本文是第一个使用AFDet（ anchor free and Non-Maximum Suppression free one stage detector）来解决这些缺点的公司。借助简化的后处理环节可以在CNN加速器或GPU上高效地处理整个AFDet。并且，在KITTI验证集和Waymo Open Dataset验证集上，AFDet无需花哨的技巧，就可以与其他Anchor-based的3D目标检测方法竞争。

简介

在点云中检测3D目标是自动驾驶最重要的感知任务之一。由于功率和效率的约束，大多数检测系统都在车辆嵌入式系统上运行。开发对嵌入式系统友好的3D目标检测系统是实现自动驾驶的关键步骤。

由于点云的稀疏性质，直接在原始点云上应用3D或2D卷积神经网络（CNN）效率很低下。对于点云数据中的目标检测部分，大多数采用基于anchor的检测方法，而基于anchor的方法有两个主要缺点。首先，非最大抑制（NMS）是基于anchor的方法所必需的，它可以抑制重叠的高置信度检测边界框。但是它可能会带来不小的计算成本，尤其是对于嵌入式系统。根据实验，即使在现代高端台式机CPU上，处理一个KITTI 点云框架也要花费20毫秒以上的时间，更不用说计算平台为嵌入式系统的情况。其次，基于anchor的方法需要选择anchor，这很棘手且耗时，因为调整的关键部分可能是手动尝试和错误过程。例如，每次将新的检测类别添加到检测系统时，都需要选择超参数，例如适当的anchor编号，anchor大小，anchor角度和密度等。

我们能否摆脱NMS并设计出对嵌入式系统友好的高效anchor free 3D点云目标检测系统？在本文中，基于anchor free思想提出了一种无anchor和无NMS的具有简单后处理的一阶段端到端3D点云目标检测器（AFDet）。

在本文的实验中，使用PointPillars将整个点云编码成伪图像或鸟瞰图（BEV）中类似图像的特征图。然而，AFDet可以与任何点云编码器一起使用，它可以生成伪图像或类似图像的2D数据。

编码后，应用上采样necks的CNN输出特征图，连接到五个不同的heads来预测BEV平面上的物体中心，并回归3D边界框的不同属性。最后，将五个heads的输出结果合并在一起，生成检测结果。其中，关键点热图预测head用于预测BEV平面内的物体中心，每一个物体都将被编码成一个以热峰为中心的小区域。在推理阶段，每一个热峰都会通过最大池化操作被挑出来，之后，不再有多个回归的anchor被平铺到一个位置，因此不需要使用传统的NMS。这使得整个检测器可以在典型的CNN加速器或GPU上运行，节省了CPU资源用于自动驾驶的其他关键任务。

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

Pillar 方式编码：point clouds --> (D, P, N)，p 是non-empty pillar number，具体使用 12000。N 是一个pillar内有points的数目，具体本文使用100。D 是 channel number。(D, P, N)--> (C, P, N) --> (C, P) --> (C, H, W) --> (6C, H/2, W/2) --> bbox。

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

（1）生成伪图像

首先在俯视图的平面上打网格（H x W）的维度；然后对于每个网格所对应的柱子中的每一个点都取（x,y,z,r,x_c,y_c,z_c,x_p,y_p）9个维度。其中前三个为每个点的真实位置坐标，r为反射率，带c下标的是点相对于柱子中心的偏差，带p下标的是对点相对于网格中心的偏差。每个柱子中点多于N的进行采样，少于N的进行填充0。于是就形成了（D,N,P）D=9, N为点数（设定值），P为H*W。

然后学习特征，用一个简化的PointNet从D维中学出C个channel来，变为（C,N,P）然后对N进行最大化操作变为（C，P）又因为P是H*W的，我们再展开成一个伪图像形式，H,W为宽高，C为通道数。

（2）基础网络

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

包含两个子网络（1、top-down网络，2、second网络）top-down网络结构为了捕获不同尺度下的特征信息，主要是由卷积层、归一化、非线性层构成的，second网络用于将不同尺度特征信息融合，主要有反卷积来实现。

（3）检测头和损失函数

检测头：SSD的检测头，目标高度和z轴单独回归。

损失函数：

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

分类损失：采用focal loss

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

回归损失：

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

本文方法：AFDet（Anchor Free One Stage 3D Object Detection）

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

图1.AFDet系统的框架和anchor free检测器的详细结构。整个pipline由点云编码器、backbone和neck以及anchor free检测器组成。方括号中的数字表示最后一个卷积层的输出通道数。C是检测中使用的类别数。

1、Point Cloud Encoder点云编码器

为了进一步挖掘anchor free检测器的效率潜力，本文先将PointPillars 用作点云编码器，因为其速度快。首先，将检测范围离散为鸟瞰图（BEV）平面中的pillars （也就是x-y平面）。根据其x-y值将不同的点分配给不同的pillars 。在此步骤中，每个点也将增加到D=9维。第二，将对具有足够数量点的预定义pillars 经过线性层并执行max操作以创建尺寸为F×P的输出张量，其中F是在PointNet中的线性层的输出通道数。由于P是选定pillars 的数目，它们在整个检测范围内与原始pillars 不是一一对应的。因此，第三步是将选定的pillars 映射到检测范围内的原始位置。之后，就可以得到一个伪图像。具体步骤，可以参考上一部分介绍。尽管使用PointPillars 作为点云编码器，但本文的anchor free检测器与生成伪图像或类似图像的2D数据的任何点云编码器兼容。

2、Anchor Free Detector

本文的Anchor Free目标检测器由五个head组成。它们是关键点热图head，局部偏移head，z轴定位head，3D目标尺寸head和方向head。图1显示了Anchor Free目标检测器的一些细节。

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

Object localization in BEV

对于热图head和偏移head，预测关键点热图和局部偏移回归图。关键点热图用于查找目标对象中心在BEV中的位置。偏移回归图不仅可以帮助热图在BEV中找到更准确的对目标象中心，而且还可以弥补因柱化过程引起的离散化误差。

将边界框参数化为地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop ，其中，分别表示LiDAR坐标系的中心位置、边界框的宽度，长度和高度、θ 是垂直于地面的绕z轴的偏航旋转。表示在x-y平面的检测范围，在LiDAR坐标系中，前后方向沿x轴，左右方向沿y轴。在本文的工作中，柱面xy平面始终是一个正方形，因此，b表示支柱的边长。对于每个目标对象的中心，在BEV伪图像坐标中具有关键点，BEV中的2D边界框可以表示为地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop 。

对于伪图像的2D边界框中覆盖的每个像素（x，y），将其在heatmap中的值设置为

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

其中，d表示在离散的伪图像坐标中，边界框中心与相应像素之间计算出的欧几里得距离。预测的M= 1表示目标对象的中心，M= 0表示此柱是背景。

BEV中的代表目标对象中心的pillars 将被视为正样本，而所有其他支柱将被视为负样本。使用改进的focal loss来训练heatmap：

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

对于偏移回归head，有两个主要功能：首先，它被用来消除由柱化过程引起的错误，在该过程中，将浮点的目标对象中心分配给BEV中的整型的pillar 位置。其次，它在完善热图目标对象中心的预测方面起着重要作用，尤其是当热图预测错误的中心时。具体来说，一旦热图预测到一个错误的中心，该错误的中心距离ground truth中心几像素远，则偏移head就具有减轻甚至消除相对于ground truth目标对象中心几像素误差的能力。

在偏移回归map中选择一个具有半径r围绕目标对象中心像素的正方形区域。距物体中心的距离越远，偏移值就越大，并使用L1 loss来训练偏移量。

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

z-axis location regression

在BEV中进行目标对象定位之后，便只有目标对象 x-y location。因此需要z轴定位head来回归z轴值。使用L1 loss直接回归z值：

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

Size regression

Orientation prediction

物体的方向θ与绕着垂直于地面的z轴旋转的标量角相交。将其编码为一个八标量，每个bin具有四个标量。两个标量用于softmax分类，另外两个标量用于角度回归。

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

其中，，地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop ，并且可以使用以下方法解码预测的方向值：

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

Gather indices and decode

在训练阶段，不对整个特征图进行反向传播。相反，仅反向传播作为所有回归head的目标对象中心的索引。在推理阶段，使用最大池化和AND操作在之后的预测热图中找到峰值，这比基于IoU的NMS更快，更高效。经过最大池化和与运算后，可以轻松地从关键点热图收集每个中心的索引。BEV中的最终物体中心将是地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop ，对于所有其他预测值，它们要么直接来自回归结果，要么通过上面的解码过程进行解码。物体的预测边界框为：

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

3、Backbone and Necks

backbone部分类似于分类任务中使用的网络，该网络用于提取特征，同时通过不同块对空间大小进行下采样。neck部分用于对特征进行上采样，以确保来自主干不同块的所有输出具有相同的空间大小，以便可以将它们沿一条轴连接在一起。图2显示了主干backbone和neck的详细信息。在生成特征图的过程中，不会降低采样率，减少下采样的步幅只会增加FLOP，因此也减少了backbone和neck的卷积数量。

实验与结果

数据集： KITTI、Waymo

训练方法：将AdamW优化器与one-cycle 策略结合使用，用于不同子损失的权重为λoff= 1.0，λz= 1.5，λsize ＝ 0.3且λori＝ 1.0。

关于各个数据集的具体设置和数据增强请参考原文。

实验效果

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

更多实验细节，可以参考原文。

参考：

https://blog.csdn.net/u011507206/article/details/89381872

推荐阅读：

专辑|相机标定

专辑|3D点云

专辑|SLAM

专辑|深度学习与自动驾驶

专辑|结构光

专辑|事件相机

专辑|OpenCV学习

专辑|学习资源汇总

专辑|招聘与项目对接

专辑|读书笔记

重磅！3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近1000+星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop - Python技术站

地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

Pillar 方式编码：point clouds --> (D, P, N)，p 是non-empty pillar number， 具体使用 12000。N 是一个pillar内有points的数目， 具体本文使用100。D 是 channel number。(D, P, N)--> (C, P, N) --> (C, P) --> (C, H, W) --> (6C, H/2, W/2) --> bbox。

推荐阅读： 专辑|相机标定 专辑|3D点云 专辑|SLAM 专辑|深度学习与自动驾驶 专辑|结构光 专辑|事件相机 专辑|OpenCV学习 专辑|学习资源汇总 专辑|招聘与项目对接 专辑|读书笔记

相关文章

Pillar 方式编码：point clouds --> (D, P, N)，p 是non-empty pillar number，具体使用 12000。N 是一个pillar内有points的数目，具体本文使用100。D 是 channel number。(D, P, N)--> (C, P, N) --> (C, P) --> (C, H, W) --> (6C, H/2, W/2) --> bbox。

推荐阅读：

专辑|相机标定

专辑|3D点云

专辑|SLAM

专辑|深度学习与自动驾驶

专辑|结构光

专辑|事件相机

专辑|OpenCV学习

专辑|学习资源汇总

专辑|招聘与项目对接

专辑|读书笔记