欢迎光临
我们一直在努力

CASA是什么检测CasA:用于激光雷达点云三维目标检测的级联注意力网络

计算机视觉life”,选择“星标”

快速获得最新干货

文章转载泡泡机器人SLAM

标题:CasA: A Cascade Attention Network for 3-D

Object Detection From LiDAR Point Clouds

作者:Hai Wu , Jinhao Deng, Chenglu Wen,Xin Li,Cheng Wang,Jonathan Li

来源:IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

编译:GUOCHENG,审核: 张海晗

摘要

大家好,今天为大家带来的文章是 

CasA: A Cascade Attention Network for 3-DObject Detection From LiDAR Point Clouds

基于光探测和测距(LiDAR)点云的三维物体检测由于其在智能城市和自动驾驶领域的广泛应用,近年来受到了广泛的关注。级联框架在二维物体检测中取得了进展,但在三维空间中研究较少。传统的级联结构使用多个独立的子网络来逐次细化。然而,这种方法在测距方面效果一般,很难在三维空间中实现理想的性能提升。本文提出了一种新的级联框架,称为级联注意力(CasA),用于激光雷达点云的三维目标检测。CasA由一个区域提议网络(RPN)和一个级联细化网络(CRN)组成。在CRN中,设计了一个新的级联注意模块(CAM),它使用多个子网络和15个注意模块来聚合来自不同阶段的对象特征,并逐步细化区域提议。CasA可以集成到各种两级三维探测器中,提高其性能。在KITTI和Waymo数据集上大量实验证明了CasA的通用性和优越性。特别是基于基于体素区域的卷积神经网络(RCNN)的一种变体,在KITTI数据集上获得了最先进的结果。在KITTI在线三维物体检测排行榜上,在中等车、26个行人和骑自行车的类别中分别获得了83.06%、47.09%和73.47%的平均精度(AP)。

主要工作与贡献

提出了一种新的级联框架CasA,用于激光雷达点云的目标检测,该框架通过多子网络逐级改进和补充预测,以获得高质量的预测。CasA可以显著提高三维目标检测性能。

提出了一个CAM来聚合不同阶段的物体特征。CAM综合考虑了之前各个阶段的质量,显著提高了提案细化的准确性。

    算法流程

    图1

    CasA是一个多级检测框架,可以集成到各种两级三维探测器中。目前多阶段方法和级联结构使用一系列独立的子网络来提升结果。一般来说,这些方法可以在各种条件下学习物体特征。然而,在独立的子网络中,后面的阶段在所有前一阶段中提升预测效果的能力有限。

    我们的想法是以级联注意力的方式聚集所有阶段的特征。如图1所示,CasA由RPN和CRN组成。RPN首先使用3-D主干网络和2-D检测头来生成区域建议。CRN由多个子网络组成,这些子网络逐步完善提案。在这个CRN中,开发了一个新的级联注意方案,它聚合了来自不同阶段的建议特征,以便进行更全面的边界框预测。

    A. Cascade Attention for Proposal Refinement

    1.Cascade Attention for Proposal Refinement

    Vanilla Cascade Structure:级联检测框架在二维图像中得到了很好的研究。Cascade R-CNN使用了一种普通的级联结构,它使用了一系列单独的子网络,并提高了IoU阈值,以细化区域。

    2.Feature Aggregation Through Cascade Attention

    聚合了不同阶段的特征,以增加物体的外观,从而更准确地检测远处和困难的物体。对于第一个细化阶段,我们的模块实际上执行了一个自我注意力操作。对于其他阶段,执行交叉注意力操作,聚合不同阶段的特征。通过采用这种级联注意力设计,CasA可以更好地评估所有阶段的质量,这有助于提高准确性

    3.Box Regression and Part-Aided Scoring

    为了进行方框回归,我们遵循[10],[19],其回归了相对于输入3-D方框大小、位置和方向残差。还设计了一个Part-aided scoring来增强置信度预测(见图2)。这是受part-sensitive warping[15]的启发,该warping对部分得分图中的对象得分进行平均,这样的设计有助于提高置信度估计。

    图2 Part-aided scoring

    4.Boxes Voting

    由于需要物体高度和非轴对准角度估计,3-D检测更具挑战性。误差倾向于与下游多级框架一起传播。为了进一步解决这个问题,在测试过程中,我们建议框式投票在阶段之间建立更多的连接。这是由一种直觉驱动的,即每个阶段都输出弱预测和强预测,这些预测可以组合在一起以生成更准确的预测。考虑到这一点,我们探索合并所有refiner的检测框的方法。一种简单的方法是直接对所有框执行非最大值抑制(NMS),并通过选择具有最高置信度的框来组合结果。然而,它忽略了许多置信度低的框,这些框有可能恢复丢失的对象。为了解决这一问题,我们采用了加权盒投票,该投票直接平均检测置信度,并将检测置信度加权的盒合并为

    其中C和B分别是合并的置信度和框。经过盒子投票,我们获得了精度更高的boxs。尽管如此,仍然有很多多余的方框,因为每个对象都有许多完善的建议。为了去除冗余框,我们最终对投票结果执行NMS以产生检测输出。通过采用投票机制,不同refiner产生的各种预测(置信度较低,并且来自不同的视角/尺度)可以以互补的方式组合成更准确/可靠的最终预测。

    B. Backbone Network

    最近的许多方法[4]、[19]使用三维稀疏卷积作为骨干网络,以提高准确性和效率,我们也采用了这种设置。我们首先将原始点P分割成小体素。对于每个体素,我们使用所有内部点的原始特征的平均值来计算原始特征。我们采用三维稀疏卷积将三维点云编码为特征体积。这里,三维稀疏卷积由一系列3×3×3的三维稀疏卷积核组成,这些核将空间特征降采样为1×、2×、4×,最终降采样为8×的张量。最后一层中的三维特征沿高度维度压缩为BEV特征,用于生成对象建议。

    C. Region Proposal Network

    最近的工作[10],[19],通过在BEV特征图上应用一系列二维卷积来生成对象建议,并从BEV图中生成对象建议。具体来说,我们首先在BEV地图的最后一层上预定义N p 个称为锚点的对象模板。通过对锚进行分类并回归对象大小、位置和相对于地面真实框的方位角的残差来生成对象建议。类似于[10],[19],通过基于IoU的匹配将地面真实边界框分配给锚点。proposal network 建议网的损失定义为

    D.Overall Training Loss

    CasA可以通过RPN损失LRPN和CRN损失LCRN进行端到端训练。将两个损失以相等的权重组合为L=LRPN+LCRN。CRN损失是多个阶段中多个细化损失的总和。在每个细化阶段,采用boxs回归损失L reg 和分数损失L score ,如[10],[19]。对于第j个细化阶段的第i个提案,我们表示得分预测、得分目标、残差预测CRN定义为

    实验结果

    本文仅用于学术分享,如有侵权联系删除

    我是小六,中科院博士毕业,计算机视觉life平台创始人。 前CV算法工程师,现在从事机器人SLAM方/三维视觉方向媒体、职业教育、开发者社区建设。感谢关注!

    学机器人SLAM/3D视觉,就上 cvlife.net

    后台回复: 666领取学 习资料 大礼包!综述论文、电子书、学习视频、数据集… 应有尽有!

    独家重磅课程官网:cvlife.net

    全国最大的机器人SLAM开发者社区

    技术交流群

    — 版权声明 —

    本公众号原创内容版权属计算机视觉life所有;从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料,版权属原作者。如果侵权,请联系我们,会及时删除

    赞(0)
    未经允许不得转载:上海聚慕医疗器械有限公司 » CASA是什么检测CasA:用于激光雷达点云三维目标检测的级联注意力网络

    登录

    找回密码

    注册