Local and Global Structure for Urban ALS Point Cloud Semantic Segmentation With Ground-Aware Attention
利用地面感知注意力对城市ALS点云进行局部和全局结构的语义分割
摘要
机载激光扫描(ALS)点云的解释在地理信息生产中起着显著的作用。作为解释的关键步骤,准确的语义分割可以大大拓宽ALS数据的各种应用。然而,由于遮挡、不同的点密度以及复杂和不完整的物体结构,大多数现有的方法不能提供精确的注释和高稳健性。因此,我们开发了一个专注于ALS点云的语义分割框架。该框架包括来自本地邻域的上下文特征提取、场景感知的全局信息表示和地面感知的注意力模块。为了验证其有效性,在三个机载光探测和测距(LiDAR)数据集上进行了综合实验。DublinCity、Dayton Annotated LiDAR Earth Scan(DALES)和DFC2019数据集。实验结果表明,所提出的方法比一些先进的方法取得了更好的分割性能。对于DublinCity数据集,我们模型的总体准确率(OA)可以提高到67.5%,平均F1(AvgF1)为37.6%。对于DALES数据集,我们的方法实现了96.5%的OA和77.6%的平均交叉超过联合(mIoU)。我们的方法在DFC2019数据集上也取得了比使用其他模型更准确的结果,OA为94.8%,平均F1为81.4%。
I. 引言
随着三维传感器技术的快速发展和普及,光探测和测距(LiDAR)系统为获取真实世界场景的最新三维空间信息提供了可靠的解决方案[1]。在所有的地球观测技术中,机载激光扫描(ALS)系统可以快速获得大规模和高精度的点云,可以准确地描述物体结构。随着LiDAR技术的创新,点云变得更加容易获得,使其成为许多应用生产过程中的标准数据类型。ALS数据提供的点没有语义信息,这阻碍了进一步的应用。解释点云是提取各种类型的地理信息的第一步[2]。分析ALS城市点云场景的语义信息的一个先决条件是语义分割,其目的是为每个点分配一个具有语义的标签。尽管ALS点云很繁荣,但由于原始点云的不规则性、物体类别的高度可变性和物体结构的复杂性,实现ALS数据的准确和高效的语义分割仍然是一个挑战。对于大型城市场景,手动注释每一个点是昂贵和耗时的[3]。
为了使解释过程自动化,机器学习和相关技术已经被开发出来[4]。基于机器学习的方法通常从设计点的独特特征和抽象的数学表达式开始,它可以定量描述一个点的特征,表明该点属于预定的语义类别。早期的研究大多集中在确定局部的几何结构[5]。代表性的工作包括基于几何坐标的特征值,基于累积图的二维局部特征,以及局部点密度[6]。这些方法采用数学算法或策略(如分类器,包括支持向量机和随机森林)来最大限度地提高各种生成特征的辨别度[7], [8]。一个精心设计的分类器以监督的方式使用鉴别特征和相应的语义标签进行训练,而点的标签则从输入特征推断出来。最后,其他测试区域的点状标签由训练好的分类器产生,这两者在某些场景中起着关键作用。然而,标签预测结果受到标签不一致的影响,因为大多数方法都是独立估计每个点的几何特征[9]。为了提高语义分割的性能,一些研究试图通过纳入上下文信息来强制执行标签的平稳性。成功的案例包括多尺度条件随机场[10]、高阶马尔科夫随机场[11]和图结构化正则化[12]。尽管如此,这些方法仍然需要手工制作的特征来描述每个点,而手工制作的特征的计算高度依赖于先验知识。此外,生成的低维特征不能区分物体大小差异较大的复杂区域的所有类别,特别是对于在野生环境中收集的ALS数据[13]。
最近,数据采集技术和高性能计算资源已经显示出明显的改善。因此,高度依赖这两个因素的深度学习方法在各种现实世界的应用中取得了显著的成功。与使用手工制作的特征的语义分割相比,深度学习方法需要更少的专家知识,并且通过自动发现标签预测所需的原始数据之间的空间互动,减轻了特征设计的负担[14]。最近的工作通过采用深度神经网络(DNNs)[如卷积神经网络(CNN)]来学习三维局部描述符来进行三维语义分割。由于ALS点云是不规则的和无序的,直接应用需要规则数据格式的CNN是不可行的[15]。为了将CNN应用于ALS点云的语义分割,许多工作将ALS点云转换为栅格化格式。
将CNN应用于ALS点云语义分割的另一个解决方案是将原始点云投射到二维图像中,这需要灰度、强度或密度来表示原始三维点的几何(如海拔)或属性(如颜色),并且不需要调整原始网络。鉴于ALS数据的点在水平方向上是均匀分布的;基于投影的方法在ALS点云的大规模语义分割中略有成功。在相关研究中[16]-[20],可以深入研究[20]的策略,因为它使用转移学习来获取多尺度多视图特征。ALS点云中的点具有明显的海拔差异;然而,这些方法会造成海拔信息的损失,并不可避免地在转换过程中诱发量化误差。此外,基于投影的方法仍然需要在训练前产生复杂的特征,但这些预先计算的特征大多是多余的。基于体积的方法为上述方法提供了一个替代方案[21]。其核心思想是将三维点离散成体素网格,在这些网格上可以利用三维CNN,每个网格被分配一个标签。尽管如此,存储在体素结构中的大量未被占用的网格将导致高内存需求[14]。此外,它们还增加了标记点云的程序的复杂性[22]。在自动驾驶和机器人领域,体积方法已经被提出作为RGB-D和稀疏LiDAR数据的解决方案。在ALS数据集中,体素也可以与其他结构相结合[23], [24]。例如,Qin等人[23]采用体素和像素作为ALS点云标签网络的输入,可以从生成的体素中提供局部区域的背景信息。在这种情况下,由于采样过程中体素分辨率的设置,混杂是不可避免的[25]。
最近出现的PointNet/PointNet++[26], [27]引入了一个新的思路,直接将离散的点作为输入,并在三维语义分割任务上表现出引人注目的性能。继这两个模型之后,一些基于点的深度学习模型集中于开发新的卷积算子(如KPConv[28]和PointConv[29]),但它们在计算机视觉界只被用作室内和近距离场景的解决方案。对于大规模的ALS城市区域,在使用深度学习时应考虑更多方面。由于ALS点云的密度分布不均匀,许多方法难以充分探索细粒度的局部结构。因此,Li等人[30]引入了一个密度感知卷积模块,通过近似连续卷积和重加卷积核的可学习权重,可以直接对不均匀分布的点云进行处理。Wen等人[31]通过考虑水平方向上方向信息的空间差异,探索了一种用于ALS点云分割的方向约束点卷积(D-Conv);D-Conv可以有效地学习有代表性的方向感知信息。此外,为了提高基于点的方法的泛化能力,Huang等人[32]通过使用基于流形的特征优化算法,将PointNet++与层次化的数据增强相结合。
已开发的网络采用了具有规则接受域的卷积核,这忽略了点之间的结构连接,不能提取单个点之间的全局关系[33]。考虑到LiDAR点集固有的拓扑信息,图卷积神经网络(GCNNs)被用于ALS点云分类。为了准确地从山区的ALS数据中提取电力设施,Li等人[34]提出了一个结合局部维度信息和局部几何信息聚合的GCNN。Widyaningrum等人[35]实现了一个动态的GCNN,并将其分类应用从室内点云扩展到室外场景,但性能很差。Wen等人[36]针对任意大小的输入ALS点云提出了一种新型的GCNN来预测语义标签。此外,从所有点之间的全局空间分布中捕获全局上下文特征,以进一步提高与ALS点云的语义分割相关的性能。近年来,注意力机制变得越来越流行,因为它可以提高判别特征并抑制干扰。注意力的应用在三维语义分割的DNN中也得到了研究。在几何感知卷积的基础上,Li等人[37]设计了一个高程注意力模块,在生成最终的类概率图时考虑点状高程信息来改善分类结果。对于ALS点云的语义分割,Huang等人[38]提出了一个多尺度的网络结构,其中嵌入了一个全局关系感知的注意模块。在他们的工作中,通过利用长距离的空间和通道关系,进一步考虑了城市场景中的尺度变化。然而,大多数基于这些注意模块的研究,只把关系作为权重来聚合信息。Lin等人[39]进一步探索了基于关系的全局结构信息。此外,为了捕捉通道之间的模型互动和点之间的全局相互依赖关系,在网络的末端增加了一个空间-通道注意模块。值得注意的是,Lin等人[39]在训练前以无监督的方式获得了分段,为每个分段分配了标签,但不正确的分段将导致点状预测的错误。为了加强点与点之间的结构联系,RandLA-Net[40]利用了基于注意力的解决方案,包括局部特征编码、注意力集合和扩张的残余块来整合随机采样点的邻近特征。由于注意力机制促进了鉴别性特征并抑制了干扰,RandLA-Net显著提高了MLS点云的分割性能,但没有提供ALS点云的正式报告。
本文为大规模城市ALS点云场景提出了一个新颖的3-D语义分割框架。具体来说,考虑了代表性信息的学习和聚集。在对地面点进行分割后,在局部邻域特征学习阶段,首先设置了点对的密集连接,根据局部区域的特点指定每个点的特征。然后,全局信息探索模块学习描述城市环境中存在的类,并施加场景感知指导。随后,利用多层感知(MLP)和最大集合,将获得的局部-全局信息进一步整合到不同的渠道。引入了地面感知(GAA)模块,以提高小型和稀疏城市物体的分割性能,为消除地面外物体的模糊性提供有价值的语境。此外,通过测量每个三维点的提取特征的重要性,进行了即插即用的特征融合,补偿了信息损失,获得了精细的分割精度
II. 方法
建议的方法采用场景感知的引导方法,试图提高大规模机载LiDAR点云在环境复杂的城市场景中的语义分割效果。如图1所示,该方法大致分为五个不同的模块:地面提取、局部特征学习、全局信息嵌入、GAA和特征融合。在下文中,我们将详细阐述这些模块的理论和逻辑原理。
A. 地面过滤
为了获得勘测场景的良好覆盖,激光扫描仪旋转发射激光束,而测绘无人机则被驱动。这样的扫描模式导致地面点占据了收集的LiDAR点的很大一部分[41]。地面和非地面物体的点分布是不同的;输入数据P = {p1,..., pN }首先被分割成两个子集。Pground和Pobjects。现代城市的地面通常不是理想的平面。此外,当扫描范围很广时,采集设备会引入信号噪音。基于手工制作的特征或预定义规则的传统过滤方法无法在复杂场景中提取地面。因为深度学习方法可以自我学习特征,所以采用了基于点的全卷积网络(FCN),只用几何信息直接对每个点进行分类[42](见图2),
其中X、Y、Z分别表示x、y、z方向的点坐标向量。
为了加速模型的收敛,在发送到FCN之前,首先使用(1)对N×M(其中N和M分别代表点的数量和每个点的属性)的输入形状进行归一化。然后,为了获得详细的点状信息和针对无序点的全局特征,归一化的数据被送入隐藏层,其中包括两个多层全卷积(MFC)运算和一个空间变换器网络(STN)层。STN的作用是在特征提取之前用多个过滤器对准典范空间中的点,这可以有效地使基于点的FCN在经过一系列一维全卷积运算(将STN得到的空间变换矩阵与原始数据相乘)后对数据变换不发生影响。接下来,我们介绍如何将上述乘法的结果加入到MFC层。根据特征维度,在第一个MFC中提取不同维度的点状特征,有7层大小(64、128、128、128、512、1024、2048);随后进行最大集合(1、2048),输出到全局特征向量,即N×2048矩阵。随后,通过将所有的点状特征与全局特征相连接来获得6080-D特征向量。为了进行二元点分类,获得的特征向量通过第二层MFC进行处理,该层有五个大小(2048、1024、256、128和2)。第二层MFC的最后一层输出一个N×2矩阵,代表每个点被标记为地面或非地面的概率。在基于点的FCN中,除了预测分类结果外,我们还引入了另一个分支来估计点的概率值λ,从而衡量分类精度,
其中Lbce表示预测概率ppoint和地面真相标签tpoint之间的点的二进制交叉熵损失(衡量预测和地面真相之间的概率分布差异),定义为(3)。 λ是以无监督的方式训练的,以衡量预测标签的模糊性。也就是说,该值越高,预测结果就越准确。
其中-log ptpoint是二元交叉熵,1-ptpoint 0.2是调制因子。数据分布不平衡在城市场景中很常见;为了消除其影响,我们采用焦点损失函数来提高二元交叉熵。具体来说,我们通过在二元交叉熵损失中加入1-ptpoint 0.2来降低权重,并将重点放在训练硬负值上。
B. 局部区域信息提取
给定一个点云,首先通过最远的点采样确定中心点;然后,基于KNN找到每个中心点周围的几个随机邻接点,这很好地定义了点云中的局部邻接点R。对于大型城市点云,以前的自适应卷积的应用忽略了局部区域内各点之间的关系[43]。为了更好地表现一个局部区域,我们专注于局部邻域中各点之间的互动,旨在提高基于局部区域特征的点状特征的提取能力。
我们密集地连接本地邻域中的所有点对,并制定了一个自适应特征调整(AFA)块[44],以确定点之间的互动。基于每个点与其他点相互连接形成的局部完全链接图(见图3),有效地提取了局部邻域背景,以改善特征集F={F1, F2,..., Fm}中的点特征。直观地说,特征调制器fmod可以有效地制定,以自适应地学习F中每个特征对每个Fi的影响。整个过程表示如下。
其中Fi是改进后的Fi。
在特征调整中,两个特征向量之间的差异至关重要;因此,我们通过使用MLP网络将影响计算为特征差异。对于每个局部区域,点对之间的影响图Wi以元素的方式施加到特征差异图上。随后,(4)中的整体点特征增强成为以下公式
其中,代表元素乘法,e表示一个全一矢量。
覆盖整个区域的元素影响图是针对局部地区的单个特征而发现的,也就是说,我们从点对差中得到了每个点对其他点的影响。基于影响指标,我们实现了每个配对点之间的邻域信息互换。当地环境将被纳入点的特征中。
每个特征被同一区域的其他特征从两个特征向量之间的学习差异中自适应地调整。基于这一策略,调整后的输出Fi包含了上下文信息,并与区域信息进行了很好的编码,从而更好地描述了这些区域的特征。具体来说,特征的更新是基于同一局部区域内两个特征之间的相互作用。随后,同一特征被分配到不同的局部区域,在每个局部区域的整个通道和空间中交换和聚集上下文信息。然后,加强的本地邻域特征被反馈到下一个模块,以进一步将信息整合到不同的通道中。
C. 场景感知指导的全局嵌入
第二节B中描述的模块侧重于通过连接和探索区域内所有的点对来穷尽本地的环境信息,从而提高所学的点状特征的表示能力。然而,在复杂的室外场景中,普遍存在的问题是,所获得的点状特征不能编码本地邻域以外的信息和城市物体之间的关系。例如,属于一棵树的点可能在建筑物附近,这样得到的局部特征通常涉及局部区域内的树和建筑物的特征。这将限制对点特征的区分,因为不止一个类别的信息被编码,从而导致ALS点云的点状预测方面的性能不佳。
为了解决这个问题,应该利用全局信息并明确地与其他特征相连接。由于全局信息是语义理解的一个重要部分,许多研究将获得的全局特征与局部特征直接整合,这些特征表现出不断增长的感受野。然而,这种整合不仅削弱了全局信息的指导作用,也降低了局部特征的表示能力。此外,全局信息通常包含扫描场景的先验信息,这可能有助于语义分割。因此,我们采用了[45]中提出的场景描述符来施加场景感知指导,以改善全局信息的影响。场景感知描述符直接学习描述属于这个场景的城市物体的类别,并通过排除不可能的物体类别来指导点级标签。具体来说,对于有n个类别的点云语义分割,设计一个长度为n的二进制向量,将全局信息作为场景先验知识。设计的全局特征向量的每个元素都代表ALS数据中相应类别的概率。如果第j类在ALS数据中不存在,则该全局特征向量的第j个元素将为零(j∈n)。预测的场景描述符 ˜g j,表示ALS点云中j类存在的概率,是通过对编码的全局特征应用MLPs得到的。分类概率图 ˜P(i, j),表示点i被归入相应类别j的概率,由softmax函数得到。然后,由˜g计算出的最终预测概率图˜Pref[见(6)]直接与每个点的˜P相乘,以确认哪些类别出现在这个场景中。因此,我们加强了高维的先验知识并提供了场景层面的指导,从而使ALS点云标签的局部特征和全局信息得到了有效的协作。
D. 地面感知注意
对于场景中的每一个点,通过连接其局部和全局特征来获得一个新的特征向量。由于传统的卷积核不容易表示相距较远的点之间的长距离依赖关系,这些特征在分割小型城市物体时相对有限。最近提出的一种关注机制被引入,以获得区域间的长距离依赖关系。由于ALS数据是由机载采集设备获得的,大多数城市物体是水平分布在地面上的。许多研究利用地面和非地面城市物体之间的关系来获得更可靠的特征,这在大规模ALS点云语义分割中起着至关重要的作用[46], [47]。受[48]工作的启发,通过考虑地面作为参考,引入了GAA模块,以使用地面感知的特征。
纳入地面信息的一个解决方案是只考虑每个点的点对地距离。相比之下,引入的GAA模块可以自动学习网络中地面点和非地面物体点之间的相互作用,以改善分割结果。该模块在生成最终的类别概率图时考虑了地面和城市物体之间的长距离依赖关系,可以以端到端方式进行训练。为了利用物体的点和地面之间的潜在关系,我们提出了学习地面和非地面点特征的加权和融合策略。图1的上半部分表示上述过程,GAA模块的细节见图4。具体来说,在分离了地面点集Pground和物体点集Pobjects后,GAA模块使用两个PointNets来分离Pground和Pobjects。它有两个分支:顶部分支的输入是嵌入特征g,它携带着顶部点网中Ng地面点的地面信息,而底部分支的输入是嵌入特征f,它携带着底部点网中No对象点的点位置信息。
图4显示了由三个卷积函数处理的嵌入特征f和g:单项函数η和两个投影函数θ和j(作为内核大小为1的卷积层执行)。为简单起见,η被认为是一个线性嵌入:η(g j) = Wη g j ,其中Wη是一个学习的权重矩阵(作为1×1卷积执行)。基于[49]的观察,采用高斯函数的扩展来计算嵌入空间中的相似性,表达如下:
其中j( fi) = Wj fi和θ g j = Wθ g j是两个嵌入。成对计算可以通过矩阵乘法简单进行。
GAA模块根据每个点pi的亲和力融合地面点的特征,如下:
响应被一个系数Ci归一化,其中Ci =
。为了进一步减少计算步骤的数量,对信息融合进行了子采样。方程(8)被修改为
,其中ˆg j是g j的子采样形式,这在空间域中减少了25%的配对计算量。
(8) 中的信息融合操作被卷积层ω包裹到每个离地点的原始特征中,其核大小为1,被定义为加权特征,用以下公式计算:
其中ω(yi) = Wφ yi,"+"表示剩余连接,这使得我们可以在任何预训练的模型中插入新的注意力模块,而不破坏其初始行为。
为了将一个区块的计算负荷减少约50%,由Wη、Wj和Wθ代表的通道数量被设定为f中通道数量的一半。权重矩阵Wφ在yi上计算一个位置上的嵌入,与f的通道数相匹配。在GAA块之后,获得具有地面亲和力的嵌入特征,它承载着长距离的语境。然后,亲和特征与在最后两个阶段获得的全局和局部特征相连接。
E. 特征融合
信息损失发生在汇集层和非汇集层之间。在汇集层之前,每个点都有独特的特征,而在取消汇集层之后,每个点的特征都变得相同。这种情况大大降低了语义分割的性能。为了解决这些问题,通过使用注意力机制[50]来衡量特征对分割精度的贡献,在融合阶段去除多余的信息,从而保持有价值的特征用于分割。为了弥补信息损失,两种特征融合共享相同的架构(见图5)。在第一个特征融合中,特征图F1首先与亲和特征图F2相连接,其中F1是通过连接局部和全局特征产生的。然后,提取的特征信息通过一个归一化的函数来生成一个加权的(F1, F2)。F1由卷积层更新,然后与M(F1, F2)相乘。最后,新的特征F∗(F1, F2)是通过将更新的特征加入到乘法结果中产生的。然而,第一次融合只改变了特征维度,而且该值太低,无法进行语义分割。第二次融合以同样的方式涉及F∗(F1, F2)和F1,其目的是产生细粒度的语义特征F∗(F1, F2)。
F. 预处理和网络实现
在进行训练样本时,我们在ALS点云上使用大小为4096点的区间子样本,以管理点密度的显著变化。为了减少计算步骤并产生批量训练样本,在DFC2019场景中任意选择64米×64米×100米的立方体区域,在DALES场景中随机选择20米×20米无重叠的区块和10米半径的球体。然后,对输入数据进行水平旋转、抖动和缩放,以进行数据增强。
所有的模型都是在一台配备了两个16GB NVIDIA GTX 1080 Ti GPU的计算机上实现的。在DFC2019数据集的训练阶段,批次大小被设定为16。采用ADAM优化器,初始学习率为0.01,学习率每3000步除以2。此外,对所提出的模型进行1000个epochs的训练,直到收敛,大约需要12小时的运行,当损失减少时,权重被保存。关于DALES数据集,初始学习率、衰减率、批次大小和最大epoch分别被设定为0.005、0.7、8和1000。
考虑到每个类别的点数呈现出不平衡的分布,而且点数较少的类别适应性不足,容易被误标,因此采用了加权的类平衡交叉熵损失来监督网络训练。每个类别都纳入了一个特定类别的权重系数来重新加权分割损失,每个类别的权重系数是根据样本量占总数的比例来计算的:
其中αk代表第k个类别在整个有K个类别的训练集中的平衡权重,Ni表示该类别的点数,ε指的是类别平衡的一个超参数。根据III-C节的讨论,ε的值被设定为1.2。通过整合特定类别的权重,类别平衡的交叉熵损失表示如下:
其中pik代表第i个点属于第k类的预测概率,yik表示第i个点在第k类上的地面真实标签。
对所提取的特征的进一步调查显示,这些特征通常涉及当地区域内不同城市对象的特征。基于这些编码了不止一类信息的特征的直接训练,可能会导致点特征失去它们的区分性。为了解决这个问题,我们引入了区域相似性损失,将区分性信息传播到局部区域的模糊信息中;因此,具有相同标签的邻居的无区分性特征可以被细化。为了鼓励我们的模型最小化具有相同标签的邻接点pni1, pni2, ..., pnik的每个特征f pnij与中心点pi的区别性特征f pi之间的差异,我们采用余弦相似度来定义区域相似度损失:
其中Mi表示区分点特征的数量,k表示所选邻接点的数量。
总损失函数包括两部分,
其中λ1和λ2调整两个损失的比例。请注意,梯度反向传播在训练期间被抑制,以防止全局场景信息被点级分类损失规范化。