深度学习3D网络---PointNet++

PointNet++

1.两者主要不同点

考虑到PointNet特征提取时只考虑单点，不能很好的表示局部结构 ==> PointNet++引入了sampling & grouping，考虑局部领域特征
PointNet中global feature直接由max pool得到，容易造成信息丢失 ==> PointNet++采用层级结构，可以有效的依据不同的感受野大小来提取不同区域的局部特征
PointNet中采用TNet来保证点云特征旋转的不变性 ==> PointNet++采用局部相对坐标进行特征提取，剔除了TNet网络
针对稀疏点云导致样本不均匀问题，PointNet未做处理 ==> PointNet++提出多尺度方法MSG和多层级方法MRG来解决样本不均匀问题
对于分割网络来讲，PointNet直接整合global feature和local embedding特征 ==> PointNet++采用Encoder - Decoder结构，特征通过skip link concatenation进行连接

2. PointNet++网络结构

PointNet++网络结构如图所示，主要包含set abstraction（SA）块，分割网络中上采样的插值操作(interpolate)，其中SA由sampling layer grouping layer和pointnet layer构成，接下来依次对其进行介绍。

sampling layer

作用

考虑到点云数量通常较大且数量不一致，PointNet++采用最远点采样（FPS(farthest point sampling )）从原始\(N\)个点云中获取\(N'\)个样本进行特征提取。
数据变化

比如结构图中输入是点云信息\(（N，d+c）\)，其中\(N\)表示点云个数，\(d\)表示坐标维度（通常为（x, y, z）3维），\(c\)表示其他特征（如颜色、法线等），经过sampling layer后变成\(（N_1，d+c）\)，其中\(N_1 \leq N\) 。
FPS

采样后的样本集包含于原始样本集\(\{x_{i1}， x_{i2}, ..., x_{im}\} \subset \{x_1, x_2, ..., x_n\}\)

采样过程也简单，先随机选取一个样本点，然后从剩余点中挑选离该样本点最远的点，即：新的样本点\(x_{ij}\)是原始样本中离已有样本集\(\{x_{i1}， x_{i2}, ..., x_{ij-1}\}\)距离最远的点

注意：这里的距离度量是参考的坐标维度d，不考虑其他特征

grouping layer

作用

为每个样本点从其局部区域中挑选出K个领域点，便于特征能更好的包含局部领域信息，个人理解这里应该参考了图片提取特征时考虑\(k*k\)的区域与一个\(k*k\)的卷积核作用，因而学习样本点特征时也考虑其相邻K个点进而构成一个子区域。PointNet++中还通过实验证明Ball query比kNN（k近邻）效果更好。
数据变化

输入为\((N_1, d+c)\)，经过grouping layer得到\((N_1, K, d+c)\)，其中\(N_1\)表示点云采样个数，\(K\)表示每个样本得到的领域点个数。
Ball query

以样本点为球心，按照给定搜索半径R得到一个球形搜索区域，然后从该区域提取K个邻近点。
问题点
- 给定领域中点的个数不足K个或者多余K个如何处理？
  
  如果不足K个，则直接对某个点重采样，凑够K个；
  
  如果大于K个，则选取距离最小的前K个。
- 对于稀疏网络而言，样本分布不均匀，如何处理？
  
  PointNet++提出了多尺度方法MSG和多层级方法MRG，这个见后面具体介绍。

pointnet layer

作用

对采样点进行局部特征提取，即：

\[f(x_1, x_2, ..., x_n) = \gamma(\max_{i=1,...,n} \{h(x_i)\}) \]
其提取过程如下图所示

数据变化

输入为\((N_1, K, d+c)\)，输出为\((N_1, d+c_1)\)，其中\(c_1\)表示经过pointNet Layer后特征维度，直观理解可以参照下图，即每一个采样点及其领域K个点经过特征提取后都形成一个新的特征，\(N_1\)个采样点最终提取得到\(N_1\)个特征。
问题点
- 特征提取时，未采用T-Net，那如何保证特征旋转不变性？
  
  PointNet++未像PointNet一样采用T-Net，而是采用局部相对坐标，就是对每个采样点及其K个领域点的空间坐标进行变换：
  
  \[x_i^{(j)} = x_i^{(j)} - \hat x^{(j)}, i = 1, 2, ..., K, j = 1, 2. ..., d \]
  其中\(\hat x\)表示采样点坐标，经过变换后其坐标都是想对于球形领域中心点的。
  
  注意：这里变换只针对坐标，其他特征不变

interpolate

作用

主要针对分割网络，因为分割结果需要对每一个点云分配一个语义标签。但是目前只获取到了下采样后点云的特征，那插值的作用就是得到下采样过程中忽视的点云的特征。
数据变化

输入为\((N1, d + C)\)，输出为\((N, d + C)\)，其中\(N\)为上采样之前的点云数量。
问题点
- 插值操作具体如何实现？
  
  作者采用反向思维，对于采样过程中忽视的点，在采样后的结果中查找领域内的k个点，那这些点的特征都是已知的，对这些已知特征采用加权平均即可得到被忽视点的特征。
  
  其中d表示距离，距离越小，权值越大

3. 稀疏点云处理

在实际点云采样过程中，其密度是不均匀的，比如下图，离相机较近的点云较密，而远点的点云较稀疏。

如果按照同一领域半径去寻找领域点，那对于稀疏的地方局部特征其实是比较差的，为了解决这一问题，作者提出了MSG和MRG两种方式。

MSG

多尺度进行采样，即前面提到的grouping layer不采用同一个半径R，而是采用不同的半径和采样个数，然后每次采样的特征都经过pointnet layer提取到特征后再进行融合，参照下图应该就清晰了。

MRG

多层级进行采样，主要是考虑到如果对每一个采样点都进行MSG，计算量太大。MRG采用两个pointnet layer对特征进行提取和聚合，过程见下图。

4. 其他细节

dropout

为提高模型鲁棒性，在训练的时候采用随机丢弃点云的策略DP，即给定一个概率\(\alpha \in [0, p]\)，每个点云都按照概率\(\alpha\)来决定是否丢弃该点，实验对比结果是加入DP后模型鲁棒性更好，最佳组合是MSTG+DP，其中SSG就是grouping layer里面提到的单尺度采样。