首页 > 其他分享 >点云分割网络---Point Transformer V3

点云分割网络---Point Transformer V3

时间:2024-07-10 21:42:56浏览次数:20  
标签:Transformer Point patch --- 点云 PTv3 序列化

PDF:《Point Transformer V3: Simpler, Faster, Stronger》
CODE: https://github.com/Pointcept/PointTransformerV3

一、大体内容

Point Transformer V3(PTv3)没有像V2那样在注意力机制方面寻求创新,而是专注于保持点云背景下准确性和效率之间的平衡,如下所示与上一代Point Transformer V2相比,PTv3在以下方面显示出优势:更强的性能。PTv3在各种室内和室外3D感知任务中实现了最先进的结果。感受野较宽。得益于其简单高效,PTv3将感受野从16个点扩展到1024个点,速度更快。PTv3显著提高了处理速度,使其适用于对延迟敏感的应用程序。降低内存消耗,PTv3减少了内存使用,增强了更广泛情况下的可访问性。

二、贡献点

  • 更简单、更快、更强的性能: PTv3 在室内和室外 3D 感知任务中取得了最先进的成果,同时保持了较高的效率。
  • 更广泛的感受野: 通过高效的数据结构,PTv3 将感受野从 16 个点扩展到 1024 个点,而不会牺牲效率。
  • 更快的速度: PTv3 显著提高了处理速度,使其适用于对延迟敏感的应用。
  • 更低的内存消耗: PTv3 减少了内存使用量,使其更易于在各种情况下使用。
  • 多数据集联合训练: PTv3 可以通过多数据集联合训练进一步改进性能,例如使用 Point Prompt Training (PPT) 方法。

三、细节

3.1 点云序列化

PTv3 使用空间填充曲线将点云序列化为结构化格式,从而保留了空间邻近关系,并简化了计算。(如:Z-order序列化(Z-ordering)是一种用于多维数据的方法,它可以将多维空间中的点映射到一维空间中,同时保持点之间的相对邻近性。在处理点云数据时,Z-order序列化可以有效地组织数据以优化存储和访问)

3.2 序列化注意力

PTv3 使用 patch attention 机制,将点分组到 patch 中,并在每个 patch 内进行注意力计算,从而提高了效率。PTv3 使用多种 patch 交互策略,例如 Shift Dilation、Shift Patch 和 Shuffle Order,以扩大感受野并增强模型的泛化能力。

3.3 位置编码

为了处理海量数据,点云transformer通常采用局部注意力,这依赖于相对位置编码方法以获得最佳性能。观察结果表明RPE的效率明显低下且复杂。

作为一种更有效的替代方案,为点云transformer引入了条件位置编码(CPE),其中通过基于八叉树的深度卷积实现。我们认为这种替换是优雅的,因为RPE在点云变换器中的实现本质上可以被视为大核稀疏卷积的变体。但单个CPE也不足以达到峰值性能(当与RPE结合时,仍有可能额外提高0.5%)。因此PTV3提出了一种增强的条件位置编码(xCPE),通过在注意力层之前直接准备具有跳过连接的稀疏卷积层来实现。实验结果表明,与标准CPE相比,xCPE完全释放了性能,延迟略微增加了几毫秒,性能增益证明了这种微小的权衡是合理的。

3.4 网络结构

PTv3 采用 U-Net 框架,包含四个编码器和解码器阶段,每个阶段都有不同的 block 深度和通道数。

四、效果

4.1 分割


4.2 检测

4.3 效率

标签:Transformer,Point,patch,---,点云,PTv3,序列化
From: https://www.cnblogs.com/xiaxuexiaoab/p/18264345

相关文章

  • 面经梳理-分布式
    题目请简述一下CAP理论,我们常见的中间件分别侧重点是什么?简述一下BASE理论?什么是强一致性,弱一致性,最终一致性CAP理论CAP原则又称CAP定理,指的是在一个分布式系统中,Consistency(一致性)、Availability(可用性)、Partitiontolerance(分区容错性)这三个基本需求,最多只能同时满足其中的2......
  • GOLLIE : ANNOTATION GUIDELINES IMPROVE ZERO-SHOT INFORMATION-EXTRACTION
    文章目录题目摘要引言方法实验消融题目Gollie:注释指南改进零样本信息提取论文地址:https://arxiv.org/abs/2310.03668摘要    大型语言模型(LLM)与指令调优相结合,在泛化到未见过的任务时取得了重大进展。然而,它们在信息提取(IE)方面不太成功,落后于特定任......
  • 面经梳理-spring
    题目聊聊spring的IOC和AOP?其底层原理分别是什么?IOC没有使用spring,所有的对象均需要手动创建,相当于底层类控制了上层类,例如轮子类控制了汽车类,创建汽车对象的时候需要传入轮子的参数。IOC意思就是控制反转,即上层类控制下层类,上层类的对象只需要指定需要什么类型的下层类对象,由......
  • (4-3)Floyd-Warshall算法:Floyd-Warshall算法的应用案例
    4.3 Floyd-Warshall算法的应用案例Floyd-Warshall算法在许多实际应用中都有着广泛的应用,特别是在需要计算图中所有顶点对之间的最短路径时,它是一种非常有效的解决方案。4.3.1  自驾线路规划暑假来临,家庭A决定自驾旅行,计划去四个城市:A、B、C、D,每个城市之间的行车距离如......
  • 285个地级市-胡焕庸线数据
    全国285个地级市-胡焕庸线数据.zip资源-CSDN文库胡焕庸线:中国人口与生态的分界线胡焕庸线,一条在中国地理学界具有划时代意义的分界线,由著名地理学家胡焕庸于1935年提出。这条线从黑龙江省的瑷珲(现黑河市)延伸至云南省的腾冲,以大约45°的角度横跨中国版图,揭示了中国人口密度的......
  • 285个地级市出口产品质量及技术复杂度(2011-2021年)
    出口产品质量与技术复杂度:衡量国家竞争力的关键指标出口产品质量是衡量国内企业生产的产品在国际市场上竞争力的重要标准。它不仅要求产品符合国际标准和目标市场的法律法规,而且需要保证产品质量的稳定性和可靠性。而出口技术复杂度则进一步体现了一个国家在出口商品中的技术......
  • 280个地级市金融集聚水平数据(2006-2022年)
    2006年-2022年280个地级市金融集聚水平数据整理资源-CSDN文库金融集聚水平:衡量地级市金融发展的新维度金融集聚水平是衡量一个地区金融发展程度的重要指标,它反映了金融机构、金融资源、金融服务在特定时间和空间的集中程度。这一指标的评估可以从多个维度进行,包括金融机构的......
  • MyBatis Plus - 简介及入门实例
    简介及入门实例前言最开始,要在Java中使用数据库时,需要使用JDBC,创建Connection、ResultSet等,然后我们又对JDBC的操作进行了封装,创建了许多类似于DBUtil等工具类。再慢慢的,出现了一系列持久层的框架:Hibernate、JPA,Mybatis等。各个框架的特点如下:Hibernate:一个全......
  • MyBatis - 注解开发
    注解开发1.MyBatis注解之前的实例中,利用MyBatis进行开发时,一旦添加新的方法,则每次都需要在XML配置文件中进行映射。而现在随着注解开发的大肆流行,MyBatis3也提供了基于注解的配置。但是通过注解的方式表达力和灵活性有限,必要时要是需要通过mapper配置文件来进行......