BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

本文链接: https://arxiv.org/abs/2112.11790
代码仓库: https://github.com/HuangJunJie2017/BEVDet

Abstract 摘要

自主驾驶能够感知周围环境进行决策，这是视觉感知中最复杂的场景之一。范式创新在解决2D对象检测任务方面的成功激励我们寻求一种优雅、可行和可扩展的范式，从根本上推动这一领域的性能边界。为此，我们在本文中贡献了BEVDet范式。BEVDet在鸟瞰图（BEV）中执行三维目标检测，其中定义了大多数目标值，可以方便地执行路线规划。我们仅重用现有模块来构建其框架，但通过构建专用数据增强策略和升级非最大抑制策略来大幅提高其性能。在实验中，BEVDet在准确性和时间效率之间提供了一个极好的折衷方案。作为快速版本，BEVDet Tiny在nuScenes值集上的mAP得分为31.2%，NDS得分为39.2%。它与FCOS3D相当，但只需要215.3个GFLOP的11%计算预算，以15.6FPS的速度运行快9.2倍。另一个被称为BEVDet Base的高精度版本得分为39.3%mAP和47.2%NDS，大大超过所有公布的结果。凭借相当的推理速度，它以+9.8%mAP和+10.0%NDS的大幅度优势超过了FCOS3D。源代码公开供进一步研究。

Introduction 介绍

在过去的几年里，2D视觉感知得到了快速发展，并出现了一些杰出的范例，如Mask R-CNN，它具有高性能、可扩展性和多任务兼容。然而，对于需要精确性和时间效率的基于视觉的自动驾驶场景，诸如3D物体检测和**地图恢复（即鸟瞰视图（BEV）语义分割）**等主要任务仍由最新基准中的不同范式执行。例如，在nuScenes基准测试中，基于图像视图的方法（如FCOS3D和PGD）在多摄像机3D对象检测跟踪中具有领先性能，而BEV语义分割跟踪主要由基于BEV的方法（例如PON、Lift Splat Shoot和VPN）控制。在自动驾驶中，哪种视野空间更适合感知，我们能否在统一的框架内处理这些任务？针对这些问题，本文提出了BEVDet。利用BEVDet，我们探索了在BEV中检测3D对象的优势，与最新的基于图像视图的方法相比，它具有更高的性能，并且与BEV语义分割具有一致的范式。通过这种方式，我们可以进一步验证多任务学习的可行性，这对于高效推理具有重要意义。

如图1所示，提出的BEVDet与最新的BEV语义分割算法具有类似的框架。它是模块化设计的，具有用于在图像视图中编码特征的图像视图编码器、用于将特征从图像视图转换为BEV的视图转换器、用于在BEV透视图中进一步编码特征的BEV编码器，以及用于在BEW空间中执行3D物体检测的特定任务头。得益于这种模块化设计，我们可以重用大量在其他领域已被证明有效的现有作品，并且还需要很长一段时间才能升级这种特定于3D物体检测任务的范例。

虽然BEVDet的框架构造简单，但构建其健壮的性能并不容易。在验证BEVDet的可行性时，为了合理的性能，将BEVDet数据处理策略和参数编号设置为接近基于图像视图的三维物体检测器，如FCOS3D和PGD。出乎意料的是，在培训过程中发现了一个严重的过拟合问题。一些线索表明，问题在于BEVDet在BEV空间中的安装容量过大。首先，过度拟合鼓励我们在图像视图空间中应用复杂的数据增强策略，如Lift Splat Shoot，以获得规则化效果。然而，只有当BEV编码器不存在时，此修改才会产生积极影响。否则，它甚至会降低性能。另一方面，图像视图编码器的批量大小是子序列模块的N倍（即，nuScenes中的6个摄像头的数量）。训练数据不足也是BEV空间学习过度拟合的部分原因。此外，我们观察到视图转换器以像素方式连接图像视图空间和BEV空间，从数据增强的角度将它们解耦。这使得图像视图中的数据增强对子序列模块（即BEV编码器和3D物体检测头）没有正则化影响。因此，作为补充，在BEV空间中执行额外的数据增强操作，如翻转、缩放和旋转，以增强模型在这些方面的鲁棒性。这可以很好地防止BEVDet过拟合。

此外，我们对经典的非最大值抑制（NMS）策略进行了升级，以提高其在三维目标检测场景中的适应性。通过删除顺序执行的运算符，推理过程进一步加快。通过这些修改，BEVDet在现有范例中的准确性和推理延迟之间提供了一个出色的折衷方案。在nuScenes val集合上，高速版本BEVDet Tiny的图像大小为704×256，达到了极高的精度（即31.2%mAP和39.2%NDS），仅为竞争对手的1/8（即29.5%mAP和37.2%NDS，FCOS3D中的1600×900图像大小）。缩小图像大小将减少89%的计算预算，并提供9.2倍的显著加速（即，BEVDet具有215.3 GFLOP和15.6 FPS，而FCOS3D具有2008.2 GFLOPs和1.7 FPS）。通过构建另一个名为BEVDet Base的高精度配置，我们报告了39.3%mAP和47.2%NDS的新记录。此外，与现有范式相比，在BEV空间中明确编码特征使BEVDet能够感知目标的平移、规模、方向和速度。在消融研究中可以发现BEVDet的更多特征。

Network Structure 网络结构

如图1所示，具有模块化设计的BEVDet由四种模块组成：图像视图编码器、视图转换器、BEV编码器和特定于任务的头部。我们通过构建几个具有不同结构的衍生物，如表1所示。

表1.BEVDet的组件。”-number”表示此模块中的通道数。Lift-Splat-Shoot-64-0.4×0.4表示中建议的视图变换器。输出功能的通道数为64，分辨率为0.4米

图1

图2.拟议BEVDet范式的框架。

BEVDet采用模块化设计，由四个模块组成：图像视图编码器首先用于图像特征提取，包括主干和颈部。视图转换器将特征从图像视图转换为BEV。BEV编码器进一步编码BEV特性。最后，基于BVE特征构建一个特定于任务的头部，并预测3D对象的目标值。我们以BEVDet Tiny为例来说明不同模块的通道。

图像视图 图像视图编码器将输入图像编码为高级特征。为了利用多分辨率特征的威力，图像视图编码器包括用于高级别特征提取的主干和用于多分辨率特征融合的瓶颈。默认情况下，我们使用经典的ResNet和最新的基于注意力的SwinTransformer作为原型研究的基础。替代品包括DenseNet、HRNet等。关于颈部模块，我们使用经典的FPN和中提出的颈部结构，以下称为FPN-LSS。FPN-LSS只需将输入分辨率为1/32的特征提升到1/16的输入分辨率，并将其与主干生成的特征串联起来。更复杂的颈部模块尚未开发，如PAFPN、NAS-FPN等。

视图转换器 视图转换器将特征从图像视图转换为BEV。我们应用中提出的视图转换器来构建BEVDet原型。所采用的视图变换器以图像视图特征为输入，通过分类方式密集预测深度。然后，在渲染预定义的点云时，使用分类分数和导出的图像视图特征。最后，可以通过沿垂直方向（即图1所示的Z坐标轴）应用池操作来生成BEV特征。实际上，我们将深度预测的默认范围扩展到米，间隔为1.25×r，其中r表示输出特征的分辨率。

BEV编码器 BEV编码器进一步对BEV空间中的特征进行编码。虽然其结构类似于具有主干和颈部的图像视图编码器，但它可以以高精度感知一些关键线索，如在BEV空间中定义的比例、方向和速度。我们遵循，利用ResNet和经典残差块构造主干，并通过应用FPN-LSS将不同分辨率的特征结合起来。

头部特定于任务的头部是基于BEV功能构建的。通常，自动驾驶仪中的三维物体检测是针对行人、车辆、障碍物等移动物体的位置、比例、方向和速度进行的。我们在不做任何修改的情况下，直接采用CenterPoint第一阶段的三维物体探测头进行原型验证，并与基于LiDAR的PointPillar和VoxelNet管道进行公平比较。尚未应用CenterPoint的第二个优化阶段。

The Customized Data Augmentation Strategy 定制数据增强策略

孤立视图空间 视图转换器以像素方式将特征从图像视图转换为BEV。具体地说，给定图像平面 $P_{image}=[xi，yi，1]^T$ 中具有特定深度d的像素，三维空间中的对应坐标为：

P_{camera}=I^{-1}(P_{image}*d)

其中I是3×3相机内参矩阵。的常见数据增强策略例如翻转、裁剪和旋转等操作可以表示为3×3变换矩阵A。当对输入图像（即 $P_{image}=A_{P_{image}}$ ）应用数据增强策略时，逆变换 $A^{-1}$ 应该应用于视图转换，以保持BEV空间中特征和目标之间的空间一致性：

P_{camera}=I^{-1}(A^{-1}_{P_{image}}*d)=P_{camera}

根据公式2，应用于图像视图空间的增强策略不会改变BEV空间中特征的空间分布。这使得在图像视图空间中执行复杂的数据增强策略对于BEVDet是可行的。

BEV空间学习与数据增强 关于BEV空间中的学习，由于每个样本包含多个相机图像（例如nuScenses基准中的每个样本包含6个图像），因此数据的数量小于图像视图空间中的数据数量。因此，在BEV空间中学习容易陷入过度拟合。由于视图变换器在增强透视图中隔离了两个视图空间，因此我们构造了另一种增强策略，专门针对正则化对BEV空间学习的影响。根据最新的基于激光雷达的方法，在二维空间中采用了常见的数据增强操作，包括翻转、缩放和旋转。在实践中，对视图变换器的输出特征和三维目标检测目标进行操作，以保持它们的空间一致性。值得注意的是，这种数据增强策略是建立在视图转换器可以将图像视图编码器与后续模块解耦的前提下的。这是BEVDet的一个特殊特性，在其他方法中可能无效。

Scale-NMS 缩放NMS

BEV空间中不同类别的空间分布与图像视图空间中的分布有很大的不同。在图像视图空间中，由于相机的透视成像机制，所有类别共享相似的空间分布。因此，具有固定阈值的经典非最大值抑制（NMS）策略可以很好地调整所有类别的预测结果，以符合先验值（例如，在2D对象检测中，两个实例之间的边界框相交于并（IOU）指示器始终低于特定阈值0.5）。然而，在BEV空间中是不同的。在BEV空间中，各个类的占用面积本质上是不同的，实例之间的重叠应该接近于零。因此，预测结果之间的借据分布因类别而异。例如，如图2所示，行人和交通锥等物体在地平面上占据一小块区域，该区域始终小于算法的输出分辨率（例如，在CenterPoint中为0.8米）。常见的目标检测范式冗余地生成预测。每个对象占用的小面积可能会使冗余结果与真正的正结果不相交。这使依赖借据访问真阳性和假阳性之间的空间关系的经典NMS失效。

为了克服上述问题，我们在本文中提出了Scale NMS。Scale NMS在执行经典NMS算法之前，根据对象的类别缩放每个对象的大小。通过这种方式，调整真正结果和冗余结果之间的IOU分布，以匹配经典NMS。如图2第二行所示，在预测小对象时，Scale NMS通过缩放对象大小来建立结果之间的空间关系，这使得经典NMS能够根据IOU指标来删除冗余对象。在实践中，我们将Scale NMS应用于除屏障外的所有类别，因为其大小各不相同。比例因子是特定于类别的。它们是通过对验证集进行超参数搜索生成的。