首页 > 其他分享 >论文解读 | ScanNet:室内场景的丰富注释3D重建

论文解读 | ScanNet:室内场景的丰富注释3D重建

时间:2023-08-25 12:04:52浏览次数:62  
标签:ScanNet 语义 注释 RGB 场景 3D 数据 重建

原创 | 文 BFT机器人

论文解读 | ScanNet:室内场景的丰富注释3D重建_数据


大型的、有标记的数据集的可用性是为了利用做有监督的深度学习方法的一个关键要求。但是在RGB-D场景理解的背景下,可用的数据非常少,通常是当前的数据集覆盖了一小范围的场景视图,并且具有有限的语义注释。


为了解决这个问题,本文介绍了一个ScanNet的大规模室内场景3D重建和语义分割数据集。该数据集包含1513个室内场景的2.5M视角,具有3D相机姿态、表面重建和语义分割的注释。并且为了收集这些数据,设计了一个易于使用和可伸缩的RGB-D捕获系统,其中包括自动表面重建和众包语义注释。实验结果表明使用这些数据有助于在几个三维场景理解任务上实现最先进的性能,表现在三维对象分类、语义体素标记和CAD模型检索几个方面。


背景

BACKDROP


随着RGB-D传感器的引入以来,3D几何捕获领域获得了广泛的关注,并开辟了广泛的新应用。在三维重建算法上已经有了大量的努力,但利用RGB-D数据进行的一般三维场景理解最近才开始流行起来。随着现代机器学习方法的快速发展,如神经网络模型,也大大促进了对语义理解的研究。


本文建立了一个来帮助初学者获得语义标记的场景3D模型。人们使用安装有深度摄像头的iPad上的一个应用程序来获取RGB-D视频,然后后台离线处理数据,并返回一个完整的语义标记的场景3D重建。确实开发这样一个框架的挑战是众多的,包括如何稳健地执行三维表面重建,以及如何众包语义标记。对这些问题的研究,并记录了在扩大RGB-D扫描收集(20人)和注释(500名人群工作者)方面的经验。


论文解读 | ScanNet:室内场景的丰富注释3D重建_数据集_02



研究

STUDY


RGB-D重建和语义注释框架的概述。左图:一个新手用户使用一个手持RGB-D设备与我们的扫描界面来扫描一个环境。中间:RGB-D序列被上传到一个处理服务器,该服务器生成三维表面网格重建及其表面分割。右图为发布语义注释任务进行众包,获得实例级对象类别注释和三维CAD模型对齐重建。使用ScanNet提供的数据对三维深度网络进行了训练,并测试了它们在几个场景理解任务上的性能,包括三维对象分类、语义体素标记和CAD模型检索。对于语义体素标记任务,本文引入了一种新的体积CNN架构。


论文解读 | ScanNet:室内场景的丰富注释3D重建_数据_03


在校准时,本文使用RGB-D传感器需要解除深度数据的扭曲和深度和颜色数据的对齐。先前的研究工作主要集中在具有更精确设备的控制实验室条件上,以告知商品传感器的校准。然而这对于新手用户来说是不实用的。因此,用户只需要打印出一个棋盘图案,将它放在一个大的、平坦的表面上,并捕获一个从近距离观察表面的RGB-D序列。这个序列,以及一组查看棋盘格的红外线和彩色帧对,由用户上传作为校准的输入,我们的系统运行一个校准程序,以获得深度和颜色传感器的内在参数,以及深度到颜色的外部转换。


我们发现,这种校准程序易于用户,结果改善数据,从而提高重建质量。本文研究选择了捆绑融合(BundleFusion)系统,因为它是设计和评估类似的传感器设置,并提供实时速度,同时相当稳健的给定手持RGBD视频数据。在验证过程时候,当扫描上传到处理服务器并在无监督下运行时,将自动触发此重建过程。为了建立一个干净的快照来构建本文报道的ScanNet数据集,自动丢弃了较短、残差重建误差高或对齐帧比例低的扫描序列。然后我们手动检查和丢弃有明显失调的重建。

论文解读 | ScanNet:室内场景的丰富注释3D重建_数据_04



结论

CONCLUSION


文中还讨论了如何在可扩展的流水线中进行3D表面重建和如何进行众包语义标注的问题,并介绍了使用ScanNet数据进行3D场景理解任务的最新技术和结果。文章中在可扩展的流水线中使用一种新的体积卷积神经网络架构,用于解决语义体素标注任务。结果表明,使用ScanNet数据可以获得比现有数据集更好的性能,这证明了ScanNet数据集的重要性和实用性,该数据集还包括纹理网格、密集的物体级别语义分割和对齐的CAD模型。3D模型是使用RGB-D捕捉系统重建的,其中包括自动表面重建和众包语义注释。


语义分割比任何先前的RGB-D数据集都要大一个数量级。模型使用估计的校准参数、相机姿态、3D表面重建、纹理网格、密集的物体级别语义分割和对齐的CAD模型进行注释。这使得ScanNet成为场景理解研究的宝贵资源。。此外还提供了新的RGB-D基准和改进的结果,这些结果可以用于3D对象分类、语义体素标注和CAD模型检索等场景理解任务。


END


作者 | ZZY

排版 | 春花

审核 | 猫


若您对该文章内容有任何疑问,请于我们联系,将及时回应。如果想要了解更多的前沿资讯,记得点赞关注哦~


标签:ScanNet,语义,注释,RGB,场景,3D,数据,重建
From: https://blog.51cto.com/bftrobot/7228184

相关文章

  • Dbeaver工具,导出oracle 表注释、字段注释
    --表注释SELECTtable_name,comments,'commentontable'||table_name||'is'''||comments||''';'FROMall_tab_commentsWHEREowner='用户名'ANDtable_nameIN('表名')ORDERBYtable_name;--字段注......
  • VS 智能提示、注释是英文,改为中文
    一、.NETFramework打开文件夹C:\ProgramFiles(x86)\ReferenceAssemblies\Microsoft\Framework\.NETFramework把v4.X文件夹里的zh-Hans文件夹复制到你需要的版本文件夹里。重启VS即可。例如:我最近在使用.NetFarmworker4.0开发项目,然后发现没有注释,那就复制......
  • 软件测试 | Java程序的注释
    在任何编程语言之中,都存在注释,注释的主要功能是让其他用户可以方便地阅读每段程序,提高程序的可读性,还可以通过注释屏蔽掉一些暂时不用的语句,等需要时直接取消此语句的注释即可,在Java中根据功能的不同,注释主要分为单行注释、多行注释、文档注释3种,下面分别进行介绍。单行注释,就是在......
  • vs code 出现html js css 注释不正常
    vue地方使用了<!---->注释,这是正常的,但是css部分也是使用<!---->注释,css应该使用//或/**/注释,这里错了。多次检查扩展,发现是扩展的问题,卸载vue或vetur这些扩展即可。......
  • JSON文件如何添加注释?
    JSON(JavaScriptObjectNotation)的设计是简洁和明确的,它不支持注释。这是JSON设计的决策之一,目的是使JSON保持尽可能简单和纯粹。但在实践中,很多时候,开发者确实会想在JSON文件中添加注释,以帮助解释或标记某些部分。虽然JSON标准不支持注释,但你仍然可以采取以下策略:使用替代文件:使用......
  • 注释
    注释并不会被执行,是给我们写代码的人看的  单行注释://注释 多行注释:/*注释*/     换行直接回车 文档注释:/**注释*/ 附加更改注释颜色(首先点击左上角file)   ......
  • Visual Studio 智能提示、注释是英文,改为中文
     最近建立一个新项目准备写一个小demo,新建项目时选的时.Net7。写代码的时候发现。Net7没有系统的中文注释,去官网下载的时候发现没有关于.Net7的汉化文件包,最新的汉化包是。Net5的,可能是我没找到,我这里是把.Net5汉化包放到了.Net7下面了,测试好用。一、.NETFramework打开文......
  • 3D虚拟情景仿真实训教学系统定制开发厂家_英途信息
    3D虚拟情景实训教学系统是一种基于虚拟现实技术,3D视觉技术,计算机技术等来模拟真实场景和环境的教学工具,可以用在教育领域中,如口译训练。1、真实场景模拟:3D虚拟情景实训教学系统可以模拟真实的场景和环境,例如会议室、展厅、酒店等,让学生在虚拟的环境中进行口译训练。这种真实场景......
  • GDAL在Unity3D中的使用(一)
    1.上官网选择对应版本  https://www.gisinternals.com/query.html?content=filelist&file=release-1930-x64-gdal-3-6-3-mapserver-8-0-0.zip选择StableReleases然后选择对应得版本点进来后,一般下载第一个 把图中dll放到Unity的Assets文件夹下面我们之前建立的Plugins文件......
  • 《代码整洁之道 Clean Code》学习笔记 Part 1 - 命名、注释、格式
    前段时间在看《架构整洁之道》,里面提到了:构建一个好的软件系统,应该从写整洁代码做起。毕竟,如果建筑使用的砖头质量不佳,再好的架构也无法造就高质量的建筑。趁热打铁,翻出《代码整洁之道》再刷一遍。《代码整洁之道CleanCode》学习笔记Part1衡量代码质量的唯一标准:WTF/min......