首页 > 其他分享 >Marigold:Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Marigold:Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

时间:2024-12-29 22:27:16浏览次数:3  
标签:Diffusion 深度图 Marigold Based 模型 估计 单目 深度 Estimation

目录

一、概述

二、相关工作

1、单目深度估计

2、扩散模型

3、单目深度估计的扩散模型

4、基础模型

三、Method

四、实验


一、概述

        Marigold是一个扩散模型和通过微调手段的单目深度估计方法,可以利用预先训练好的Stable Diffusion中的视觉知识,来实现更好更通用的深度估计,实现仿射不变性。由于LDM的优势,Marigold也表现出出色的zero-shot泛化能力,未知真实深度图情况下,在几个真实数据集中获得SOTA性能。

        但是复杂场景的话Depth Anything V2更好。

二、相关工作

1、单目深度估计

        单目深度估计一般被认为是一种密集的结构化回归性任务。早期的方法局限于特定场景,室内或驾驶场景。为了保证更广泛的适用性,提出更为通用的深度估计模型,可以在特定场景中微调或者直接使用。这些通用模型一般采用MiDAS提出的策略,从RGB-D数据集中采样训练数据,获得更广泛的视觉知识。

        绝对深度估计,近期一些工作提出引入相机内参作为额外输入,来实现绝对深度估计。

        近期的CNN到Transformer的发展提高了性能,如DPT和Omnidata,LeReS提出两阶段框架,先预测仿射不变深度,在通过计算shift和focal上升到metric depth。HDN提出多尺度深度归一提高了预测细节和平滑性。

        Marigold方法提出解决仿射不变深度估计,但并不关注某一个训练集,而是通过LDM寻求一个广泛的图像先验,并根据不同场景进行微调。

2、扩散模型

        在text2image领域,有一篇万引论文High-Resolution Image Synthesis with Latent Diffusion Models提到从一个已有LDM上基于LAION-5B训练一个扩散模型,貌似是基于已有扩散模型做其他领域生成的鼻祖。

        所以Marigold也使用已有LDM来作单目深度估计。

3、单目深度估计的扩散模型

        在此之前,VPD已经提出额外引入文本输入来实现深度扩散。DepthGen提出利用扩散模型实现度量深度预测。

        相比于以往的单目深度估计的扩散模型,Marigold可以广泛的用于任何场景,并且可以在特定场景下进行微调。

4、基础模型

        这里提到Stable Diffusion作为基础模型,可以在74k个合成深度样本的训练下,学习到真实图像数据集的深度估计。

三、Method

        微调原理(下图):输入图像x和GT深度d,应用StableDiffusion v2的Encoder编码到潜在空间z(x),z(d),并将z(d)不断加噪,并拼接在z(x)上输入到StableDiffusion的Diffusion U-Net,之后输出预测噪音,并与初始加噪计算L2范数进行监督。

Overview of the Marigold fine-tuning protocol

 

        推理过程:直接将高斯噪声z_t^{(d)}concat到给定图像的潜在空间z(x)上并经过U-Net网络预测\hat{\varepsilon },并且在原高斯噪声z_t^{(d)}上不断去噪得到z_0^{(d)},利用stablediffusion v2的解码器来还原预测深度\hat{d}

        其中在微调过程中,U-Net权重可以变化,而encoder和decoder全程frozen,也就是说不需要微调编码过程,只需要优化中间的去噪过程。

        另外注意到输入图像是3维的,中间的特征都是RGB3条通道,而输出的深度图是1维的,所以论文将每一个深度分别来预测一个深度 \hat{d},最后取三条通道的平均值。

        另外在高斯噪声上做了一些改进,加噪过程是一个给定的多分辨率噪声以及一个退火时间表的组合,并不是一味地添加类似的噪声,而是由叠加几个不同尺度的随机高斯噪声图像组成的,这种组合效果相比ddpm效果收敛更快。

仿射不变性怎么体现的?

        在初始GT深度图d,做了一个线性归一化,使得深度主要落在[-1,1]之间,一方面VAE被规定为取值[-1,1],满足与深度图对齐,另一方面这个归一化本质是一个仿射变换,使得深度图受限于近平面和远平面,而不依赖于原始数据的统计性,也保证了深度值不受原场景比例和相机参数影响,可以让Marigold专注于深度结构,不受离散的特定深度值的影响。

         其中d_2,d_{98}是各个深度图2%和98%的值,这个工作实现通过仿射变化来对深度进行归一化。

为什么使用合成数据集?

        因为数据依赖于GT深度,而真实数据集下的GT深度是经过采集的,采集就会有误差,合成数据集可以保证深度密集且完整,不存在误差,比较干净。另外VAE不能输入无效像素的深度,因为在真实数据采集中不可避免存在无效的深度。所以通过这种方式可以有效且完整的利用合成数据集来实现去噪网络的微调。

四、实验

        不同单目深度估计方法生成深度图的对比。

        通过深度图来warp图像实现重建工作,可以看到Marigold生成的表面法线较为平滑,结构更加详细。 

参考项目地址:Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

标签:Diffusion,深度图,Marigold,Based,模型,估计,单目,深度,Estimation
From: https://blog.csdn.net/m0_60177079/article/details/144804205

相关文章

  • NLP论文速读(AAAI 2024)|面向序列生成的基于高效采样强化学习 (Efficient Sampling-ba
    论文速读|ESRL:EfficientSampling-basedReinforcementLearning forSequenceGeneration论文信息:简介:   本文探讨了将强化学习(ReinforcementLearning,RL)应用于序列生成模型的背景。序列生成是一个长期决策问题,而RL特别适合优化长期奖励,例如序列级别的评分......
  • 【stable diffusion插件】Ai绘画工具,Stable Diffusion插件使用攻略
    前言哈喽,大家好,我是Lison,今天给大家分享一下StableDiffusion的插件使用攻略。一、什么是插件StableDiffusion的插件主要是用来丰富SD的一些功能,例如C站助手,提示词助手,图片信息助手等插件都是为了增强SD的实用性。二、安装插件我们以C站助手为例,C站助手可以将从C站(ci......
  • 【stable diffusion模型】2024年50个热门LoRA模型推荐-Stable Diffusion
    前言使用StableDiffusion创作绘画作品,我们可以借助checkpoint、Lora和embeddings等模型,提升AI的绘画质量和创造力。本文将根据评分、下载量和收藏量等多个维度,从画风、概念、服饰等各个方面,盘点civitai上受欢迎的LoRA模型,并简要介绍它们的特点和用途。一、风格0......
  • 全网最全,保姆级Stable Diffusion系列入门使用教程下篇(图生图、LoRA、提示词权重)
    前言:在上一篇文章中,我们带领大家了解了StableDiffusion的基础操作。接下来,下篇教程将深入探讨图生图、LoRA、提示词权重等高级功能,为大家提供全网最全、保姆级的StableDiffusion使用指南,助你轻松驾驭这款强大的图像生成工具。让我们一起开启创作之旅!一、LoRA1、什么是L......
  • 最新Stable Diffusion整合包安装,全新加速、解压即用、防爆显存三分钟入门
    StableDiffusion出来已经很长一段时间了,网上其实已经有很多很多教程教如何安装了,但是由于网上太多的教程,也不知道哪个更好,且有的伙伴可能也是没找到合适的,也有的伙伴暂时还没找到。在StableDiffusion刚出来不久,我也尝试了多种安装方式,也有试过google、腾讯云一键安装脚本......
  • 【stable diffusion教程】有没有人能详细介绍一下Stable Diffusion AI绘画?
    前言简单来说,StableDiffusion(简称SD)就是一个AI自动生成图片的软件,通过我们输入文字,SD就能生成对应的一张图片。很多人也想尝试,但被复杂的操作步骤劝退,今天我简单介绍一下关于SD的安装和使用教程。AI图像生成技术对硬件要求较高,特别是处理器显卡,电脑整体性能水平越高,......
  • (2-3-01)目标检测与分割:基于PointNet的目标检测与分割+基于Voxel-based的目标检测与分割
    2.3 目标检测与分割LiDAR目标检测与分割是智能驾驶和机器人领域中的重要任务之一,它涉及从激光雷达(LiDAR)扫描数据中提取和识别目标物体。在本节的内容中,将详细讲解常见的LiDAR目标检测与分割算法。2.3.1 基于PointNet的目标检测与分割PointNet算法的发展推动了智能驾驶......
  • 【stable diffusion教程】SD绘画工具,几分钟打造个性化艺术字
    前言大家好!在之前的内容中,我们详细介绍了什么是AI绘画以及一些常用的AI绘画工具,相信大家对AI绘画已经有了一定的了解。那么接下来,我将为大家带来一个具体的案例演示,帮助大家更加直观地感受到AI绘图的魅力。你是否也经常刷到那些创意十足的AI生成艺术字体图?将文字巧妙地融......
  • 【Stable Diffusion零基础指南】图生图轻松生成属于你的艺术作品!
    在AI生成图像领域,StableDiffusion的Img2Img模式为我们带来了一个强大的工具:通过输入一张现有图片,结合你的提示词和参数,生成风格独特、创意十足的新图片!无论是将简单的草图变成艺术杰作,还是给照片注入独特风格,Img2Img都能助你实现创意梦想。本教程将手把手教你从零开......
  • 深度解析丨StableDiffusion如何实现模特精准换装以及如何替换模特
    大家好这里是阿道夫!!一、前言来了来了,之前给大家承诺的模特换装教程它来了!本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等......