CASA是什么检测CasA：用于激光雷达点云三维目标检测的级联注意力网络-上海聚慕医疗器械有限公司

计算机视觉life”，选择“星标”

快速获得最新干货

文章转载泡泡机器人SLAM

标题：CasA: A Cascade Attention Network for 3-D

Object Detection From LiDAR Point Clouds

作者：Hai Wu , Jinhao Deng, Chenglu Wen，Xin Li，Cheng Wang，Jonathan Li

来源：IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

编译：GUOCHENG，审核: 张海晗

摘要

大家好，今天为大家带来的文章是　

CasA: A Cascade Attention Network for 3-DObject Detection From LiDAR Point Clouds

基于光探测和测距(LiDAR)点云的三维物体检测由于其在智能城市和自动驾驶领域的广泛应用，近年来受到了广泛的关注。级联框架在二维物体检测中取得了进展，但在三维空间中研究较少。传统的级联结构使用多个独立的子网络来逐次细化。然而，这种方法在测距方面效果一般，很难在三维空间中实现理想的性能提升。本文提出了一种新的级联框架，称为级联注意力(CasA)，用于激光雷达点云的三维目标检测。CasA由一个区域提议网络(RPN)和一个级联细化网络(CRN)组成。在CRN中，设计了一个新的级联注意模块(CAM)，它使用多个子网络和15个注意模块来聚合来自不同阶段的对象特征，并逐步细化区域提议。CasA可以集成到各种两级三维探测器中，提高其性能。在KITTI和Waymo数据集上大量实验证明了CasA的通用性和优越性。特别是基于基于体素区域的卷积神经网络(RCNN)的一种变体，在KITTI数据集上获得了最先进的结果。在KITTI在线三维物体检测排行榜上，在中等车、26个行人和骑自行车的类别中分别获得了83.06%、47.09%和73.47%的平均精度(AP)。

主要工作与贡献

提出了一种新的级联框架CasA，用于激光雷达点云的目标检测，该框架通过多子网络逐级改进和补充预测，以获得高质量的预测。CasA可以显著提高三维目标检测性能。

提出了一个CAM来聚合不同阶段的物体特征。CAM综合考虑了之前各个阶段的质量，显著提高了提案细化的准确性。

算法流程

图1

CasA是一个多级检测框架，可以集成到各种两级三维探测器中。目前多阶段方法和级联结构使用一系列独立的子网络来提升结果。一般来说，这些方法可以在各种条件下学习物体特征。然而，在独立的子网络中，后面的阶段在所有前一阶段中提升预测效果的能力有限。

我们的想法是以级联注意力的方式聚集所有阶段的特征。如图1所示，CasA由RPN和CRN组成。RPN首先使用3-D主干网络和2-D检测头来生成区域建议。CRN由多个子网络组成，这些子网络逐步完善提案。在这个CRN中，开发了一个新的级联注意方案，它聚合了来自不同阶段的建议特征，以便进行更全面的边界框预测。

A. Cascade Attention for Proposal Refinement

1.Cascade Attention for Proposal Refinement

Vanilla Cascade Structure：级联检测框架在二维图像中得到了很好的研究。Cascade R-CNN使用了一种普通的级联结构，它使用了一系列单独的子网络，并提高了IoU阈值，以细化区域。

2.Feature Aggregation Through Cascade Attention

聚合了不同阶段的特征，以增加物体的外观，从而更准确地检测远处和困难的物体。对于第一个细化阶段，我们的模块实际上执行了一个自我注意力操作。对于其他阶段，执行交叉注意力操作，聚合不同阶段的特征。通过采用这种级联注意力设计，CasA可以更好地评估所有阶段的质量，这有助于提高准确性

3.Box Regression and Part-Aided Scoring

为了进行方框回归，我们遵循[10]，[19]，其回归了相对于输入3-D方框大小、位置和方向残差。还设计了一个Part-aided scoring来增强置信度预测（见图2）。这是受part-sensitive warping[15]的启发，该warping对部分得分图中的对象得分进行平均，这样的设计有助于提高置信度估计。

图2 Part-aided scoring

4.Boxes Voting

由于需要物体高度和非轴对准角度估计，3-D检测更具挑战性。误差倾向于与下游多级框架一起传播。为了进一步解决这个问题，在测试过程中，我们建议框式投票在阶段之间建立更多的连接。这是由一种直觉驱动的，即每个阶段都输出弱预测和强预测，这些预测可以组合在一起以生成更准确的预测。考虑到这一点，我们探索合并所有refiner的检测框的方法。一种简单的方法是直接对所有框执行非最大值抑制（NMS），并通过选择具有最高置信度的框来组合结果。然而，它忽略了许多置信度低的框，这些框有可能恢复丢失的对象。为了解决这一问题，我们采用了加权盒投票，该投票直接平均检测置信度，并将检测置信度加权的盒合并为

其中C和B分别是合并的置信度和框。经过盒子投票，我们获得了精度更高的boxs。尽管如此，仍然有很多多余的方框，因为每个对象都有许多完善的建议。为了去除冗余框，我们最终对投票结果执行NMS以产生检测输出。通过采用投票机制，不同refiner产生的各种预测（置信度较低，并且来自不同的视角/尺度）可以以互补的方式组合成更准确/可靠的最终预测。

B. Backbone Network

最近的许多方法[4]、[19]使用三维稀疏卷积作为骨干网络，以提高准确性和效率，我们也采用了这种设置。我们首先将原始点P分割成小体素。对于每个体素，我们使用所有内部点的原始特征的平均值来计算原始特征。我们采用三维稀疏卷积将三维点云编码为特征体积。这里，三维稀疏卷积由一系列3×3×3的三维稀疏卷积核组成，这些核将空间特征降采样为1×、2×、4×，最终降采样为8×的张量。最后一层中的三维特征沿高度维度压缩为BEV特征，用于生成对象建议。

C. Region Proposal Network

最近的工作[10]，[19]，通过在BEV特征图上应用一系列二维卷积来生成对象建议，并从BEV图中生成对象建议。具体来说，我们首先在BEV地图的最后一层上预定义N p 个称为锚点的对象模板。通过对锚进行分类并回归对象大小、位置和相对于地面真实框的方位角的残差来生成对象建议。类似于[10]，[19]，通过基于IoU的匹配将地面真实边界框分配给锚点。proposal network 建议网的损失定义为

D.Overall Training Loss

CasA可以通过RPN损失LRPN和CRN损失LCRN进行端到端训练。将两个损失以相等的权重组合为L=LRPN+LCRN。CRN损失是多个阶段中多个细化损失的总和。在每个细化阶段，采用boxs回归损失L reg 和分数损失L score ，如[10]，[19]。对于第j个细化阶段的第i个提案，我们表示得分预测、得分目标、残差预测CRN定义为

实验结果

本文仅用于学术分享，如有侵权联系删除

我是小六，中科院博士毕业，计算机视觉life平台创始人。前CV算法工程师，现在从事机器人SLAM方/三维视觉方向媒体、职业教育、开发者社区建设。感谢关注！

学机器人SLAM/3D视觉，就上 cvlife.net ！

后台回复： 666领取学习资料大礼包！综述论文、电子书、学习视频、数据集… 应有尽有！

独家重磅课程官网：cvlife.net

全国最大的机器人SLAM开发者社区

技术交流群

本公众号原创内容版权属计算机视觉life所有；从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料，版权属原作者。如果侵权，请联系我们，会及时删除

CASA是什么检测CasA：用于激光雷达点云三维目标检测的级联注意力网络

相关推荐

作者介绍

聚慕医疗

热门文章

切换注册登录

切换登录注册