首页 > 其他分享 >新方案:从错误中学习,点云分割中的自我规范化层次语义表示

新方案:从错误中学习,点云分割中的自我规范化层次语义表示

时间:2023-02-16 15:45:16浏览次数:58  
标签:分割 模型 语义 学习 规范化 原型 点云

前言 LiDAR 语义分割通过直接作用于传感器提供的原始内容来完成细粒度的场景理解而受到关注。最近的解决方案展示了如何使用不同的学习技术来提高模型的性能,而无需更改任何架构或数据集。遵循这一趋势,论文提出了一个从粗到精的设置,该设置从标准模型派生的分类错误 (LEAK) 中学习。
 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。


​ 论文:https://arxiv.org/pdf/2301.11145.pdf

 

论文出发点

 

目前点云语义分割最先进的解决方案通常建立在自动编码器架构或完全卷积模型之上,其内部结构在很大程度上取决于任务和所处理数据的属性。由于点云的稀疏性和不规则分布,处理LiDAR数据进行语义分割存在一些挑战。现有的架构没有配备自我规范化的类条件策略来进一步改善模型训练,它们在没有细化的情况下学习概念。最近的工作利用身体边缘特征、自我监督的深度估计或伪标签,并且不执行任何从初步的类别条件准确性估计的自适应自我正则化。 在本文中,作者提出了LEAK(Learning from mistakes),一种新颖的从粗到细的学习策略,通过分类错误、类原型和类不平衡自动驱动的训练过程,优化语义分割网络的性能。

 

主要贡献 (1)本文提出了一个通用的语义分割框架,适用于不同的实验场景; (2)通过谱聚类检查标准模型的混淆分数来识别宏类别中语义一致的类别划分; (3)设计了一个层次感知的公平性约束来平衡分类分数,而不考虑每个类的频率或准确性; (4)计算类条件原型,这些原型在其原型表示周围强制执行特征的正则化约束; (5)在不同的标准点云和 RGB 语义分割数据集上对本方法进行了基准测试,其性能优于最先进的架构。

 

方法

 

整体结构 本文的整体架构如图2所示。首先谱聚类应用于从标准预训练模型推断的混淆矩阵,在类集上获得的层次划分在输出的公平性目标中使用,对由任何现成的分割模型执行的标准监督学习的结果进行分析。然后在微观和宏观层面构建原型。通过这种方式,模型通过采用语义驱动的自正则化方法从错误中学习,并获得相对于标准解决方案的整体改进。 ​ 图1. 识别微类(例如,汽车和卡车)的语义宏观社区(例如,车辆),自动分析任何语义分割模型的准确性结果。

 

​ 图2. LEAK整体结构。

 

从错误中学习 LEAK 的第一个构建块是基于从错误中学习的相互语义错误分类的自正则化策略的有效核心。采用预训练的标准分割模型来推断验证集的预测,计算类别的混淆矩阵。该矩阵 A 被视为与完整图网络 G 关联的邻接矩阵,其中将不同的类别分配给节点,条件错误概率是边权重。用{ci}, i ∈ [0, m)来标识 G 的节点,其中m是类的总数,用{di,j}, i, j ∈ [0, m),其中i , j分别表示ground truth 和predicted class index。边di,j与将真实类别ci分类到预测类别 cj 的概率相关联。使用此表示通过聚类算法绘制社区中的细分,识别M个聚类,由{Ci}, i ∈ [0, M)定义。 具体来说,这种划分是通过通常用于根据连接节点的边来识别图中节点社区的谱聚类来执行的。邻接矩阵 A 作为输入提供,由对数据集中每对点的相对相似性的定量评估组成。该算法遵循一个迭代过程,该过程利用相似性矩阵的特征值进行降维,并逐步将网络细分为两个集群,直到达到最佳社区数量。该数字是先验估计的,其中最佳簇数对应于局部最小值的数量。在此步骤中找到的社区代表类的宏观分组。图 2 左侧直观地展示了谱聚类算法对图和混淆矩阵带来的影响。 每种颜色对应于属于同一集群(即宏类)的一组节点(即微类)。图 1 左侧的树结构是用这种方法自下而上导出的,并显示了类的层次结构,具体如图3所示。 ​ 图3. SemanticKITTI 中类的分层后验类。

 

功能原型对齐 原型(即类质心)是特征空间中不可学习的向量,代表数据集中出现的每个语义类别,并在监督下的每个训练步骤更新运行平均值。在训练步骤t中,批次B的B个总样本,原型被更新为通用类 c 为:   其中^ϕc为当前 batch B中对应c类的特征向量,kc[t]为之前所有batch中遇到的c类对应的特征向量个数,nc 为当前 batch 中对应c类的特征向量个数批次B。因此,kc[t] = kc[t − 1] + nc 其中 kc[0] = 0。 然后,聚合具有相同语义类c的特征以帮助构建原型Γc。类原型被初始化为Γc[0] = 0 ∀c ∈ [0, m)。使用 l1 范数 || · ||1 作为公制距离。损失函数定义为: ​     公平加权 为了加强特征原型对齐的正则化效果,引入了一种细心的每类加权方案。该约束源自实验观察,即每个类的点数对该类的分类精度有显着影响。在许多实际应用中,出现频率最低的类别是最关键的类别(例如,汽车场景中的人)。本文提出了一个源自Jain’s fairness指数F的正则化目标,以提供平衡的每类权重。换句话说,这解决了每个宏类中的资源分配问题,考虑属于同一宏类的微类与共享相同资源的用户: ​ 其中 mC是宏类C中(微)类的数量,πc,c表示向量πc中的第c个元素,πc 是类c的平均预测向量,获得如下: 其中 pc是具有真实类别c的通用预测向量,¯nc是当前批次B中标记为c的点数。高公平值表示实体之间的资源分配真正平衡,而低公平值表示资源分配不平衡(图 1 上部)。因此,为了保持类间精度的同质性,设计了一个基于公平性的损失函数,如下所示:   目标函数 训练目标由每个架构(L0)的基本损失函数与LEAK组件给出的附加目标的组合给出。基本损失函数取决于所选架构。它对应于RandLA-Net和RangeNet++的具有逆类权重的标准交叉熵损失,对应于体素特征的 Lovaszsoftmax损失加上点特征的逆类权重的交叉熵损失Cylinder3D中的细化,以及 DeepLabV3的普通交叉熵损失。 LEAK 组件由微观级别 (LPm) 和宏观级别 (LPM) 特征原型对齐目标以及类注意权重约束 (LF) 给出。然后将完整目标计算为:   实验及结果 本文使用三个点云数据集和一个图像数据集对公开可用的基准进行实验,分别是SemanticKITTI、S3DIS、Semantic3D和PascalVOC2012数据集。 ​ 图4. 使用或不使用LEAK训练的RandLA-Net的定性结果(最相关的改进用红色圆圈突出显示)。 ​ 表1. SemanticKITTI数据集上的每类 IoU。†:为了公平比较,从官方代码库重新训练的模型。粗体表示与基线相比最佳。 ​     表2. 使用 RandLA-Net在S3DIS数据集(6 折交叉验证)上的定量结果。 ​     表3. 使用 RandLA-Net在S3DIS数据集(6 折交叉验证)上的定量结果。

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

 

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

 

QQ交流群:444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

 

模型部署交流群:732145323。用于计算机视觉方面的模型部署、高性能计算、优化加速、技术学习等方面的交流。

 

其它文章 姿态估计端到端新方案 | DirectMHP:用于全范围角度2D多人头部姿势估计 深度理解变分自编码器(VAE) | 从入门到精通 计算机视觉入门1v3辅导班 计算机视觉交流群 用于超大图像的训练策略:Patch Gradient Descent CV小知识讨论与分析(5)到底什么是Latent Space? 【免费送书活动】关于语义分割的亿点思考 新方案:从错误中学习,点云分割中的自我规范化层次语义表示 经典文章:Transformer是如何进军点云学习领域的? CVPR 2023 Workshop | 首个大规模视频全景分割比赛 如何更好地应对下游小样本图像数据?不平衡数据集的建模的技巧和策 Transformer交流群 经典文章:Transformer是如何进军点云学习领域的? CVPR 2023 Workshop | 首个大规模视频全景分割比赛 如何更好地应对下游小样本图像数据?不平衡数据集的建模的技巧和策 U-Net在2022年相关研究的论文推荐 用少于256KB内存实现边缘训练,开销不到PyTorch千分之一 PyTorch 2.0 重磅发布:一行代码提速 30% Hinton 最新研究:神经网络的未来是前向-前向算法 聊聊计算机视觉入门 FRNet:上下文感知的特征强化模块 DAMO-YOLO | 超越所有YOLO,兼顾模型速度与精度 《医学图像分割》综述,详述六大类100多个算法 如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门 近似乘法对卷积神经网络的影响 BT-Unet:医学图像分割的自监督学习框架 语义分割该如何走下去? 轻量级模型设计与部署总结 从CVPR22出发,聊聊CAM是如何激活我们文章的热度! 入门必读系列(十六)经典CNN设计演变的关键总结:从VGGNet到EfficientNet 入门必读系列(十五)神经网络不work的原因总结 入门必读系列(十四)CV论文常见英语单词总结 入门必读系列(十三)高效阅读论文的方法 入门必读系列(十二)池化各要点与各方法总结 TensorRT教程(三)TensorRT的安装教程 TensorRT教程(一)初次介绍TensorRT TensorRT教程(二)TensorRT进阶介绍    

 

标签:分割,模型,语义,学习,规范化,原型,点云
From: https://www.cnblogs.com/wxkang/p/17127005.html

相关文章

  • 开源项目推荐:3D点云处理软件CloudCompare,
    3Dpointcloudandmeshprocessingsoftware,OpenSourceProject,BasedonQt5.CloudCompare是一款基于GPL开源协议的3D点云处理软件,可以在Windows、MacOS和Linux上运......
  • 如何在 Pascal Voc 语义分割任务中为标签图建立灰度图索引
    上图是voc语义分割的图片,下图是来自陈洪翰大佬文章中的索引表。直接放代码:importosimportcv2importnumpyasnpfrommatplotlibimportpyplotaspltfromPIL......
  • C++右值引用与移动语义
    一文看懂C++右值引用和移动语义目录背景什么是右值引用为什么需要右值引用移动构造move的原理move的应用场景右值引用注意事项总结背景C++11......
  • 关于语义分割的亿点思考
    前言本文为大家重点剖析现有的语义分割框架,带领大家一步步探讨。本文转载自CVHub作者丨派派星欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪......
  • 精华文稿|迈向统一的点云三维物体检测框架
    分享嘉宾| 杨泽同文稿整理| William嘉宾介绍Introduction3D检测是在三维世界中去定位和分类不同的物体,与传统2D检测的区别在于它有一个深度信息。目前,大部分的工作是倾......
  • 【MMAsia 2021】基于分块的点云几何压缩自编码器
    Patch-BasedDeepAutoencoderforPointCloudGeometryCompressionhttps://arxiv.org/abs/2110.09109这篇论文使用深度自编码器,提出了一种基于分块(patch)的有损点云几......
  • 01-语义分割
                     a:正负样本的比例设置的权值;Y是相等于像素点判断的类别的难易程度权值。             ......
  • 图森提出激光雷达辅助视觉惯性定位方法,结合语义地图,遮挡和退化环境也稳!
    以下内容来自小六的机器人SLAM学习圈知识星球每日更新内容点击领取学习资料→机器人SLAM学习资料大礼包论文#LiDAR-AidedVisual-InertialLocalizationwithSemanti......
  • C++右值引用,移动语义与完美转发详解
    tags:C++Interview写在前面总结一下深入理解C++11这本书的第三章第三节,右值引用部分.文中全部代码可以参考我在GitHub上传的部分:​​Learn_C_Cpp/c++11-14/Depth_unde......
  • HTML5 语义化元素
    本文我们要来介绍一个抽象的知识点-语义化。什么是语义化,浅显的来说就是使用合适的语法来实现相应的功能,这里说的合适并非是从性能、数据结构、算法等深度层面,而是从阅读和......