首页 > 其他分享 >读论文P2Net

读论文P2Net

时间:2023-04-15 12:31:45浏览次数:54  
标签:P2Net 论文 视图 像素 --- 区域 平面 关键点

Abstract

本文处理了室内环境中的无监督深度估计任务。这项任务非常具有挑战性,因为在这些场景中存在大量的非纹理区域。这些区域可以淹没在常用的处理户外环境的无监督深度估计框架的优化过程中。然而,即使这些区域被掩盖了,性能仍然不能令人满意。在本文中,我们认为非区分点匹配的性能不佳。为此,我们提出了P2网络。

(一)

我们首先提取具有较大局部梯度的点,并采用以每个点为中心的斑块作为其表示。然后在补丁上定义多视图一致性损失。该操作显著提高了网络训练的鲁棒性。

(二)

此外,因为在室内场景中,那些无纹理的区域(例如,墙壁、地板、屋顶等),通常对应于平面区域,我们建议利用超像素作为一个平面先验。我们使预测的深度被每个超像素内的一个平面良好地拟合。在NYUv2和ScanNet上的大量实验表明,我们的P2网络优于现有的近似方法。


3 Method

3.1 Overview

我们的目标是学习一个深度估计的室内环境,只有单目视频。在最近在无监督深度估计[60]上取得成功之后,我们的P2网包含了两个可学习的模块: DepthCNN和PoseCNN。DepthCNN以目标视图图像作为输入,输出相应的深度Dt。PoseCNN以源视图图像Is和目标视图图像It作为输入,预测连续两帧之间的相对姿态Tt→s。

一种常用的策略是首先用预测的深度图Dt和摄像机运动Tt→s合成一个新的视图It',并最小化合成视图It'与其对应的真实视图It之间的光度一致性误差。然而,当直接将该策略应用于室内场景时,训练过程很快就会崩溃。

我们的观察是,纹理区域有利于深度估计和摄像机运动估计。相比之下,室内场景中较大的非纹理区域很容易淹没整个训练过程,即使这些区域被掩盖,结果仍然很模糊。因此,我们建议选择具有较大局部方差的代表性关键点。然而,正如在以前的无监督学习框架[18,19]中所做的那样,用单一强度值表示一个点是非区别的,并可能导致错误匹配为了解决这个问题,我们提出了一个补丁匹配模块,一种基于补丁的表示方法,它将一个点与以该点为中心的局部窗口相结合,以增加它们的鉴别能力,并最小化基于补丁的多视点光度一致性误差。为了处理大的非纹理区域,我们提出了一个平面正则化模块,使用大的超像素提取均匀色,并强制执行一个超像素内的预测深度图可以用一个平面来近似。我们的P2网络的概述如图1所示。

读论文P2Net_双线性插值

3.2 Keypoints Extraction

与室外场景不同的是,室内场景中大量的非纹理区域很容易淹没训练过程,导致DepthCNN总是预测无穷大的深度,而PoseCNN总是给出一个一致旋转。因此,在训练过程中,应该只保留纹理区域内的点,以避免网络被困在这些无用的结果中。在此,我们采用了直接稀疏测度法(DSO)[8]中的点选择策略,其具有有效性和高效性。DSO中的点是从具有大强度梯度的像素中采样的。图3显示了提取的DSO关键点的示例。

读论文P2Net_损失函数_02

我们的直接方法相对于基于匹配的方法[58]的一个关键优势是我们不需要预先计算图像之间的匹配,这本身就是一个具有挑战性的问题。因此,我们只需要从目标图像中提取一次点即可。不需要手工制作用于匹配的描述符。因此,我们的方法更加稳健。此外,请注意,我们的方法不限于特定类型的关键点检测器。其他斑点检测器(例如SURF [1])也会产生一致的结果。

总结

使用DSO关键点来避免网络陷入琐碎的结果。DSO从具有大强度梯度的像素中采样点,在训练过程中保留纹理区域内的点避免网络陷入琐碎的结果。

3.3 Patch-based Multi-view Photometric Consistency Error

利用上一步提取的关键点,我们可以通过比较相应像素的值来定义一个光度一致性误差。(一般的操作---光度损失误差---基于点的)

【缺点】----改进

然而,这种基于点的表示不够具有代表性(缺点)而且很容易导致错误匹配因为在一个图像中有许多像素具有相同的强度值

(其他的改进方法)在传统的稀疏SLAM管道[8]中,为了克服上述挑战,在每个点pi的局部窗口上定义了一个支持域Ωpi。然后在每个支持域Ωpi上累积光度损失,而不是单个孤立点。这种操作将会有更加稳健的结果,由于提取的关键点与其支持域的结合。----受到启发!

【基于补丁的重建过程----损失函数改进---patch-based multi-view phtometric consistency error】

受上述操作的启发,这里我们提出了一个基于补丁的重建过程,如图2所示。

读论文P2Net_双线性插值_03

原来的重投影操作

具体来说,我们从目标视图t提取DSO关键点读论文P2Net_双线性插值_04,原始的基于点的扭曲过程首先将关键点重投影到源视图是:

读论文P2Net_双线性插值_05

读论文P2Net_sed_06

(进行重投影操作,将target的关键点投影到对应的原始图上,这里是点到点的操作,然后进行采样操作)

读论文P2Net_sed_07

各个参数的解释,内参,相对位姿,原视图,目标视图,深度,在原始图上进行采样操作。


现在我们的操作

读论文P2Net_sed_08

有一个局部窗口来代表这一个点的像素值,对于这个局部窗口(support region)里的点---使用相同的depth值。

重建过程为:

读论文P2Net_损失函数_09

(对于局部窗口进行重投影,patch-based,而不是只一个点)

读论文P2Net_双线性插值_10

这个局部窗口---support domain支持域

【优点】

  • 更好区分,更鲁棒(SLAM角度)。
  • 有更大区域的有效梯度值(因为是一个区域内的,很多是相同的像素值如果针对纹理区域的话),相对于双线性插值。

最终的光度损失函数

支持域的定义----N范围

读论文P2Net_损失函数_11

在monodepth2里,使用了L1损失以及结构相似性损失,这里同样使用相同的结合方式。不一样的地方在于,使用【基于块的多视图的光度损失】,得到最终的光度损失值。

读论文P2Net_损失函数_12

读论文P2Net_损失函数_13

  • 双线性插值的使用
  • monodepth2里的最小值光度损失的改进的使用

读论文P2Net_双线性插值_14

3.4 Planar Consistency Loss

分段平面区域检测---假设颜色均匀的区域为平面区域

使用的方法----Felzenszwalb superpixel segmentation----贪婪策略,会检测到很多平面区域(也是有问题的)

关于这个方法可以看:https://blog.csdn.net/weixin_46109921/article/details/130167975?spm=1001.2014.3001.5501

读论文P2Net_损失函数_15

读论文P2Net_sed_16

平面检测的例子如上图所示。

如何做的?

1.提取超像素,只保留大于1000像素的区域---因为平面区域一般都比较的大;

2.平面区域SPPm----每一个像素值都对应一个深度D(pn),将平面区域内的所有像素值投影到三维空间里;

3.使用一个平面参数Am来统一三维空间中的点(在同一平面上投影到三维空间中的点),使得他们能够在同一平面上。

读论文P2Net_损失函数_17

如何求解---最小二乘法

读论文P2Net_损失函数_18

已知Pn,Ym--->求Am

求得Am后即可求得对应的深度值,比较准确的平面深度值,作为监督信号。

读论文P2Net_双线性插值_19


3.5 Loss Function

读论文P2Net_损失函数_20

所有部分的损失函数加起来作为整体的损失函数。

4 Experiments

4.1 Implementation Details

monodepth2的框架---depthnet+posenet

Adam

epoch

learning rate

random flipping + color augmentation

288*384 for training

original resolution---test

median scaling strategy?---evaluation

读论文P2Net_双线性插值_21

参考文章

https://www.sohu.com/a/448625703_715754

标签:P2Net,论文,视图,像素,---,区域,平面,关键点
From: https://blog.51cto.com/u_12074581/6192282

相关文章

  • 数学建模论文排版
    本文为学习清风数学建模排版部分的笔记配套资料可以在微信公众号《数学建模学习交流》后台发送“论文排版”免费获取。Word基础开启两个功能显示/隐藏编辑标记   打印预览功能快捷键 insert键F4键(重复上一步操作)Ctrl类快捷键Ctrl+Enter分页符(用的很多,分割页面时......
  • 软件质量属性之性能 科技小论文
    软件质量属性之性能耿晴(石家庄铁道大学信息科学与技术学院软件工程系;河北省石家庄市;050000) 摘要:性能是一个软件架构的重要指标,从用户的角度来看对于一个运行速度很慢的软件是很难长久地存在的,所以软件的性能的优化对于软件的存亡有着至关重要的作用。本文从开发人员视角、......
  • 科技论文:软件体系架构质量属性-可测试性
    软件体系架构质量属性-可测试性邱实(石家庄铁道大学河北省石家庄市050000) 摘要:测试是软件生命周期中不可忽略的一个关键过程。软件架构质量属性与软件测试密切相关。对于软件体系架构的质量属性,可测试性是一个非常重要的方面。在本文中,我们将探讨软件体系架构质量属性的......
  • 毕业论文之删除endNote
    在对引用文献进行检查的时候,发现endnote很难用,每次打开都会出现如图提示。  这是因为没有完全删除掉引用。我在网上找了方法,一个是在查找中替换,如下图(引自Zotero、NoteExpress等文献管理工具的一类引文错误解决-知乎(zhihu.com)) 还有一个方法就是,如下图(引自Word文档中......
  • 2023年4月的12篇AI论文推荐
    GPT-4发布仅仅三周后,就已经随处可见了。本月的论文推荐除了GPT-4以外还包括、语言模型的应用、扩散模型、计算机视觉、视频生成、推荐系统和神经辐射场。1、GPT-4TechnicalReporthttps://arxiv.org/abs/2303.08774SébastienBubeck,VarunChandrasekaran,RonenEldan,Joh......
  • 论文解读( FGSM)《Adversarial training methods for semi-supervised text classificat
    论文信息论文标题:Adversarialtrainingmethodsforsemi-supervisedtextclassification论文作者:TaekyungKim论文来源:ICLR2017论文地址:download 论文代码:download视屏讲解:click1 背景1.1 对抗性实例(Adversarialexamples)通过对输入进行小扰动创建的实例,可显著增加机器......
  • 论文解析 -- AIOps- A Multivocal Literature Review
    这篇综述是基于ASystematicMappingStudyinAIOps的基础上的补充和更新。除了论文,还涵盖greyliterature(e.g.,blogposts,videos,andwhitepapers) ,所以称MultivocalOurworkwillcomplementtheworkperformedbytheseauthorsaddingalsoinsightsfromgre......
  • 论文解析 -- A Systematic Mapping Study in AIOps
    AIOPS论文的综述如何挑选论文,如何选取keywords 搜索的3个论文库, Weselectthreeonlinesearchdatabasesthatareappropriateforthescopeofinvestigation:IEEEXplore,ACMDigitalLibraryandarXiv. 对于挑选出的论文进行分类,分类标准是,targetcomponents......
  • CodeGeeX论文发表:揭秘AI辅助编程工具背后的大模型
    近日,CodeGeeX模型迭代v1.5版本上线,用户反馈模型效果和使用效率较之前有大幅提升。恰逢CodeGeeX团队在arxiv上发布了论文,详细介绍了CodeGeeXAI编程辅助工具背后的代码生成大模型的架构、训练过程及推理加速等工作。今天我们对这篇论文的核心信息进行解读,让更多的开发者了解Cod......
  • 【论文阅读笔记】Learning to Prompt for Continual Learning
    Create_time:April27,20225:21PMEdited_by:HuangYujunOrg:GoogleResearch,NortheasternUniversityLearningtoPromptforContinualLearning[38]LearningtoPromptforContinualLearning.pdf问题:最终输入transformerencoder的序列长度是怎么组成的,原始......