首页 > 其他分享 >顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景

顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景

时间:2024-05-28 20:44:25浏览次数:32  
标签:场景 PERF 视图 2D 全景图 单张 360 3D

前言 本文提出了一种新的方法解决单张 2D 全景图恢复 360 度 3D 全景问题,利用扩散模型的先验知识和单目深度估计器进行合作修补大尺度遮挡区域,并提出了一种新的冲突避免策略,实现了当前最佳的单张全景图恢复 360 度 3D 场景的效果。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自PaperWeekly

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

研究背景随着深度学习与 3D 技术的发展,神经辐射场(NeRF)在 3D 场景重建或逼真新视图合成方面取得了巨大的进展。给定一组 2D 视图作为输入,神经辐射场通过优化隐式函数来表示 3D 场景。

然而,在很多情况下,我们只有单张 2D 视图。一些工作尝试从具有 3D 先验的单张图像训练神经辐射场。他们主要关注有限的视野,因此仅需考虑少量的遮挡,这极大地限制了它们在具有大尺寸遮挡的真实 360 度全景场景中的可扩展性。

在很多真实的应用场景下,我们通常需要 360 度全视角的 3D 场景。因此,有必要研究利用 360 度视角相机(例如 Insta360 或者 Ricoh THETA SC2)拍摄的一张 2D 全景图来恢复 360 度全视角的 3D 场景任务,如图 1 所示。

▲ 图1. 单张全景图恢复360度3D场景

 

研究挑战和存在的方法

利用单张 2D 全景图进行 360 度 3D 全景恢复是一个挑战的问题。具体地:

1. 全景图是全景相机在某个位置捕获得到的 360 度 2D 视图,不包含 3D 信息。在没有任何 3D 先验的条件下,无法从单张 2D 全景图中训练出有效的神经辐射场 NeRF;

2. 由于单张全景图像只能捕捉到相机位置目光所及的可见区域,存在部分无法观测的区域。因此,训练单视图全景神经辐射场非常具有挑战性,它耦合了 3D 场景重建和 3D 场景生成两个学习任务。一方面,给定的一张全景图,我们需要重构其可见区域;而另一方面,我们必须在不可见区域生成合理的内容,在语义上匹配 3D 空间的可见区域,这是很困难的。

3. 与有限视角的单张图恢复 3D 场景 [1-3] 或以物体为中心的 360 度物体重建 [4] 不同,全景场景通常包含大尺寸遮挡且侧重于开放场景。

4. “可见区域的重建”和“不可见区域的生成”通常会出现几何冲突。在不可见区域的场景生成过程中,新合成的 3D 几何体不应遮挡原始视角能观测到的可见区域。否则,将导致训练期间出现几何冲突。

注意到,在同期的工作 [5] 中,为了解决 3D 空间中物体的检测与去除,F. Wei 等提出了通过投票和裁剪的方法来保证各视角几何/纹理填补时的不一致性,但存在一些技术上的不同。也推荐读者去阅读此篇论文。本文工作发表在 TPAMI 2024 上。

论文题目:

PERF: Panoramic Neural Radiance Field from a Single Panorama

作者单位:

MMLab@NTU、大湾区大学、香港大学

项目主页:

https://perf-project.github.io/

论文链接:

https://arxiv.org/pdf/2310.16831.pdf

代码链接:

https://github.com/perf-project/PeRF

附:Guangcong Wang 和 Peng Wang 为共同一作,Ziwei Liu 为通讯作者。此工作在 MMLab@NTU 完成。收录顶刊 TPAMI 2024!

研究动机神经辐射场(NeRF)在基于多视图的新视图合成方面取得了实质性进展。近期一些工作尝试从具有 3D 先验的单个图像训练神经辐射场。它们主要关注具有少量遮挡的有限视野,这极大地限制了它们对具有大尺寸遮挡的真实 360 度场景的可扩展性。为了解决这个问题,本文提出了一种新的方法解决单张 2D 全景图恢复 360 度 3D 全景问题。

▲ 图2. 本文所提出的PERF框架图

方法框架

上图展示了我们方法 PERF 的框架图。PERF 主要由三个部分组成,包括 1)包含深度图的单视图 NeRF 训练;2)协作 RGBD 修复不可见区域;3)渐进式修复和擦除。

具体来说,给定一张 2D 全景图,我们使用单目深度估计器来预测其深度图,并将输入视图(RGB+depth)作为初始化来训练 NeRF。然后利用一个协作 RGBD 修复模块进行不可见区域填补,该模块包含一个深度估计器和一个稳定扩散模型 (StableDiffusion),从而将 NeRF 扩展到随机视角渲染。

为了避免几何冲突,本文使用了渐进式修复和擦除模块来判别冲突区域并在训练中忽略这些区域。我们使用给定的单视图全景图和随机视点生成的新全景图进行 NeRF 模型的微调直到收敛。

主要贡献

本文的主要贡献有三点:

1. PERF,一种从单张全景图训练 360 度 3D 全景神经辐射场的新方法。为此,我们提出了一种新的协作 RGBD 修补方法,利用预训练的稳定扩散(StableDiffusion)模型进行 RGB 修补,以及使用一个经过训练的单目深度估计器进行几何修补。值得注意的是,协作 RGBD 修补不需要额外的训练。

2. 我们提出了一种渐进式修补和擦除方法,以避免不同视角之间的几何冲突。我们通过逐渐增加一个随机视角来修补不可见区域,并通过比较新添加的视角和参考视角的几何,擦除之间的冲突区域。

3. 在 Replica 和 PERF-in-the-wild 数据集上的大量实验表明,PERF 在单视图全景神经辐射场中达到了新的最先进水平。所提出的 PERF 可应用于全景图-3D、文本-3D 和 3D 场景风格化应用场景,这几个应用展示了非常好的结果。

应用1:单张全景图恢复360度3D场景

利用单张全景图训练,得到的新视角渲染视频。

▲ 图3. 单张全景图恢复360度3D场景

应用2:文本生成360度3D场景应用

首先利用 Text2Light [6] 或者 skybox [7],由文本生成全景图,然后利用本文方法将全景图生成 360 度 3D 场景。如下示例中利用了 skybox。

动图封面  

▲ 图4. 文本生成360度3D场景1

动图封面  

▲ 图5. 文本生成360度3D场景2

动图封面  

▲ 图6. 文本生成360度3D场景3

应用3:3D场景风格化

先利用 InstructPix2Pix [8] 将全景图风格化,然后利用本文方法将全景图生成 360 度 3D 场景。

动图封面  

▲ 图7. 3D场景风格化

 

大湾区大学王广聪课题组招聘

欢迎对计算机视觉、深度学习和图形学等领域感兴趣的同学(2024,2025级)加入王广聪课题组!我们诚挚邀请博士后、博士研究生、硕士研究生、研究助理、访问学生和实习生加入我们的课题组,共同探索前沿科技,详情请点击:

https://wanggcong.github.io/recruit2024.html

 

参考文献

[1] D. Xu, Y. Jiang, P. Wang, Z. Fan, H. Shi, and Z. Wang, “Sinnerf: Training neural radiance fields on complex scenes from a single image,” in Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXII. Springer, 2022, pp. 736–753

[2] Z. Yu, S. Peng, M. Niemeyer, T. Sattler, and A. Geiger, “Monosdf: Exploring monocular geometric cues for neural implicit surface reconstruction,” Advances in Neural Information Processing Systems (NeurIPS), 2022

[3] A. Yu, V. Ye, M. Tancik, and A. Kanazawa, “pixelnerf: Neural radiance fields from one or few images,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 4578–4587

[4] D. Xu, Y. Jiang, P. Wang, Z. Fan, Y. Wang, and Z. Wang, “Neurallift360: Lifting an in-the-wild 2d photo to a 3d object with 360deg views,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 4479–4489

[5] F. Wei, T. Funkhouser, and S. Rusinkiewicz, “Clutter detection and removal in 3d scenes with view-consistent inpainting,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 18 131–18 14

[6] Z. Chen, G. Wang, and Z. Liu. "Text2light: Zero-shot text-driven HDR panorama generation." ACM Transactions on Graphics (TOG) 41, no. 6 (2022): 1-16.

[7] https://skybox.blockadelabs.com/[8] Brooks, T., Holynski, A. and Efros, A.A., 2023. Instructpix2pix: Learning to follow image editing instructions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18392-18402).

 

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT

ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出

ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习

听我说,Transformer它就是个支持向量机

HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香

1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4

SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!

GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR

Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星

CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群

标签:场景,PERF,视图,2D,全景图,单张,360,3D
From: https://www.cnblogs.com/wxkang/p/18218807

相关文章

  • SD8002D单声道功率放大器输入1KHZ5V电压驱动功率SOP8封装2.0V-5.5V
    SD8002D是一款AB类,单声道带关断模式,桥式音频功率放大器。在输入1KHz,5V工作电压时,最大驱动功率为:3W,(4Ω负载,总谐波失真<10%),2W,(4Ω负载,总谐波失真<1%);音频范围内总谐波失真噪音小于1%(20赫兹·20KHz);SD8002D应用电路简单,只需要极少数外围器件,就能提供高品质的输出功率。......
  • 【论文解读】Performance of AV1 Real-Time Mode
    论文下载地址:PerformanceofAV1Real-TimeMode时间:2020.10级别:IEEE作者:LudovicRoux摘要背景:COVID-19疫情增加了对数字互动的需求,使得实时或低延迟编解码器变得更加重要。现状:大多数编解码器,包括AV1,主要关注于编码效率,这是视频点播(VOD)的主要改进目标。研究目的:阐......
  • 『vulnhub系列』BEELZEBUB- 1 96692f0bce834b9f85ce4fb6710ae52d
    『vulnhub系列』BEELZEBUB-1下载地址:https://www.vulnhub.com/entry/beelzebub-1,742/信息搜集:使用nmap扫描存活主机,发现主机开启了22和80端口nmap192.168.0.*访问80端口的web服务,发现是apache的默认页面使用dirsearch扫描目录dirsearch-u"http://192.168.0.140/"......
  • 基于Kaggle学习MONAI(三)2D-Segmentation例程代码详解1
    1简介         MONAI网站提供了2D分类/分割、3D分类/分割等例程代码如下图所示,通过学习例程代码,初学者能够尽快掌握MONAI框架,但是由于开源框架软件版本更新较快、各模块功能难以协调等原因,这些例程往往无法在Kaggle平台直接运行。本文对MONAI官网第二个例程,即2D分割......
  • Unity2d横板移动有个极小的向下的加速度
    2d横板角色移动在碰撞体边缘刚体会有个向下的极小值-1.776357e-15,如果用加速度判断一些东西会出问题,找了好久发现碰撞盒的size的x轴所影响,修改碰撞盒size的x值可以让他不触发,但值不是固定的,不同的碰撞盒有不同的值,本人初学,原因未知,求大佬解答在大概这个边缘的时候地面碰撞盒......
  • wpf 动画显示隐藏_[UWP]用Win2D和CompositionAPI实现文字的发光效果,并制作动画
    weixin_39880899于2020-12-1109:26:23发布阅读量521 收藏点赞数文章标签: wpf动画显示隐藏  1.成果 献祭了周末的晚上,成功召唤出了上面的番茄钟。正当我在感慨“不愧是Shadow大人,这难道就是传说中的五彩斑斓的黑?”“那才不是什么阴影效果,那是......
  • Performance选项卡笔记以及分析vue页面卡顿
    各区域内容说明Performance选项卡可以用于分析页面性能。最上方红框区域内出现红色块的代表该时间段帧率不足60帧。往下是cpu占用率。卡顿原因主要耗时根据以下该图进行分析。问题分析由此可见本次分析主要导致卡顿的原因是因为js的执行所导致的。可以选择时间区域进一......
  • 构建-Cocos2dx-安卓游戏-全-
    构建Cocos2dx安卓游戏(全)原文:zh.annas-archive.org/md5/C5B09CE8256BCC61162F0F46EF01CFDE译者:飞龙协议:CCBY-NC-SA4.0前言Cocos2d-x是最常使用的开源游戏框架。它得到了微软对其移动和桌面平台官方支持,其小巧的核心运行速度比其他框架快,使得它能在低端Android设备上......
  • rabbitMq的status报错Error: unable to perform an operation on node ‘rabbit……
    遇到下图这个错大部分问题可能是由于 RabbitMQ CLI工具的ErlangCookie与服务器上的不匹配而导致连接问题。ErlangCookie在RabbitMQ节点之间进行身份验证和安全通信时起着重要作用。可以在c盘搜索一下看下两个.erlang.cookie文件中的内容是否一致,不一致的话就改成一致的......
  • Kmesh进入CNCF云原生全景图,实现网格治理sidecarless化
    本文分享自华为云社区《Kmesh进入CNCF云原生全景图》 ,作者:云容器大未来。近日,Kmesh 正式进入CNCF云原生全景图,位于ServiceMesh 类别下。CNCFLandscape在云原生实践过程中的每个环节帮助用户了解有哪些具体的软件和产品选择,Kmesh进入CNCFLandscape,成为了CNCF构建云......