首页 > 其他分享 >MoGe---最新单目3D几何估计方法

MoGe---最新单目3D几何估计方法

时间:2024-12-29 22:27:31浏览次数:3  
标签:相机 尺度 --- 估计 单目 仿射 MoGe 不变

目录

一、概述

二、相关工作 

1、单目深度估计

2、单目几何估计

3、相机内参估计

4、单目几何的大规模数据训练

三、前置知识

1、仿射不变和尺度不变指标

2、FOV和shift

3、ROE对齐求解器

四、MoGe

1、为什么设计仿射不变?

2、恢复相机焦距和移位 

3、MoGe框架

五、实验

1、点映射比较

2、单目深度估计比较 

3、FOV比较

4、消融实验

5、可视化


一、概述

        该论文提出了一个从单张单目图像中直接预测场景三维点云表示的模型MoGe。利用仿射不变性,不受真实尺度和位移的影响,从而消除了相机焦距产生的歧义。另外提出一种新颖的全局和局部几何监督技术,使模型学习到高质量的几何信息。该模型在包括3D点图,深度图,FoV(相机视场)单目估计中都显著优于最先进的方法。

MGE:Monocular geometry estimation

MDE:Monocular depth estimation

(1)提出了一种新的仿射不变点映射的开放域图像的直接MGE方法。

(2)建立了新的有效的全局和局部监督的鲁棒和精确的几何恢复。

(3)不同数据集下,MGE,MDE,FOV估计均达到SOTA,(可以替代DUSt3R来提供3D prior)

Head fig.

二、相关工作 

1、单目深度估计

        早期的单目估计严重依赖特定传感器的数据,比如RGBD相机,LiDAR,校准立体相机,但是存在特定领域的适用性。

        另外在单目估计近期仿射不变预测或者直接回归或生成模型的方式,但恢复三维几何需要相机内参。

2、单目几何估计

        单目点图估计恢复的是每个像素的自由三维点。

        LeReS引入仿射不变预测的两阶段pipeline,然后通过点云模块恢复位移和相机焦距。

        UniDepth通过自我提示的相机模块,预测摄像机表示来调整后续深度估计。

        DUSt3R通过端到端双视图映射点图,但依据尺度不变性,会导致受到焦距模糊影响。

3、相机内参估计

        早期工作依据已知三维形状或vanishing points。最近依赖基于学习的方式,但效果并不满意。

4、单目几何的大规模数据训练

        MiDaS混合不同领域数据集训练。

        Depth Anything使用有标记的和未标记的数据来提高泛化,v2工作进一步强调高质量合成数据也可以提供更多丰富的几何形状信息。

三、前置知识

1、仿射不变和尺度不变指标

        首先定义\hat{p}_i,p_i分别为预测点和GT点,\hat{z}_i,z_i分别表示预测深度和GT深度,对应着点的z坐标,M表示GT的mask,a,b分别表示将预测和GT对齐的尺度和位移,d_i,\hat{d}_i表示预测视差和GT视差,定义为d_i=1/z_i

尺度不变点映射

        a^*=\arg \min_{a}\sum_{i \in M} \frac{1}{z_i}||a\hat{p}_i-p_i||_1

仿射不变点映射

        (a^*,b^*)=\arg \min_{a,b}\sum_{i \in M} \frac{1}{z_i}||a\hat{p}_i+b-p_i||_1

尺度不变深度映射

        a^*=\arg \min_s \sum_{i \in M}\frac{1}{z_i}|a\hat{z}_i-z_i|

仿射不变深度映射

        (a^*,b^*)=\arg \min_s \sum_{i \in M}\frac{1}{z_i}|a\hat{z}_i+b-z_i|

仿射不变视差映射

        (a^*,b^*)=\arg \min_s \sum_{i \in M}(a\hat{d}_i+b-d_i)^2

其中为防止对齐视差过小或负值,则利用1/z_{max}进行反向截断,对齐深度\hat{z}_i^*表示为:

        \hat{z}_i^*=\frac{1}{max(a^*\hat{d}_i+b^*,1/z_{max})}

2、FOV和shift

        FOV:视场角 (标准镜头45度,近景镜头:40度,广角镜头:60度)(FOV越大,看的范围越宽)

        EFL: 焦距(焦距越大,看的越远)

        FOV与EFL关系:FOV=2\times tan^{-1}(\frac{W}{2f}),其中W为传感器宽度,由垂直fov和水平fov限制。

FOV和W的图示

        单目几何估计输出场景三维模型,一般利用SfM,以往的MGE都是估计一个depth map,并且以未知的scale来结合相机内参,通过非投影方式恢复三维形状。

        相较于DUSt3R,使用多视图深度估计,使用尺度不变点映射,MoGe可以单目估计,而且使用仿射不变点映射。

        z轴方向的shift:就是相机在z轴方向的前后偏移。

3、ROE对齐求解器

        ROE 对齐求解器是一种高效的并行搜索算法,用于求解全局损失中的最优对齐参数 s∗ 和 t∗。它将原优化问题分解成一系列并行的一维子问题,将时间复杂度从O(N^3)降低到 O(N^2logN),大大提高了训练效率。同时,它还引入了截断绝对残差的策略,进一步提高了鲁棒性。

        MoGe中的全局损失和局部损失中的(s_j^*,t_j^*)都来自于ROE算法。

ROE alignment algorithm

四、MoGe

1、为什么设计仿射不变?

        根据下图,相似的一前一后两张单目图像,受到相机焦距和与物体的距离影响,导致在尺度不变性下存在不一致的观察效果,而仿射不变性下一致。这是不是也揭示了一些基于DUSt3R进行3D prior的生成模型,在不同视角下,与GT视角只保持了尺度一致,并不能保持仿射一致,不同视角下就会想着相机方向扭曲。

仿射不变和尺度不变产生不一致性

2、恢复相机焦距和移位 

        仿射不变点映射可以恢复相机位移和焦距,给定预测点(x_i,y_i,z_i)以及二维像素(u_i,v_i),可以求解相机焦距预测f和z轴偏移t_z'。全局尺度s,t_z'=t_z/s

        \min_{f,t_z'} \sum_{i=1}^N(\frac{fx_i}{z_i+t_z'}-u_i)^2+(\frac{fy_i}{z_i+t_z'}-v_i)^2

        看到附录里还有一部分直接简化掉焦距的计算,只最小化t_z'

3、MoGe框架

MoGe Framework

流程: 

        输入一张单目图像,经过DINOV2 预训练的ViT+轻量级的基于CNN的上采样器预测一个仿射不变点图\hat{P}和一个掩码\hat{M}用于排除无法定义几何的区域(如天空),直接给定为无穷远。

        之后从\hat{M}\hat{P}中通过ROE确定全局尺度因子s和平移t,并通过损失来优化参数,在推理过程直接就通过ROE求解得到最优的s和t。

        最后有了s和t,通过仿射不变点图\hat{P}恢复出相机空间下的点云P=s\hat{P}+t,进一步通过点云P提取出深度图,就是提取所有点的z坐标。

        而这个模型最优的点在于开创了一系列创新的全局和局部几何监督损失函数

(1)全局损失L_G:相较于以往的只考虑尺度不变,引入了偏移t。

        ​​​​​​​        ​​​​​​​        L_G=\sum_{i\in M}\frac{1}{z_i}||s \hat{p_i}+t-p_i||_1

        训练时应用全局损失来优化s和t,但是首先应该确定s和t,论文中提出了一种并行搜索方法ROE将问题分解为一系列平行一维子问题,降低复杂度到O(N^2logN)

(2)局部损失L_{S1},L_{S2},L_{S3}:保证在不同尺度下,独立预测和GT点云进行仿射对齐,计算局部几何差异。

        计算过程如下,首先给定一个GT 3D点p_j作为锚点,选择以p_j为中心,半径为r_j的球形区域内的点集S_j

        S_j= \left \{ i||p_i-p_j|| \leqslant r_j,i \in M \right \},其中r_j=\alpha \cdot z_j \cdot \sqrt{\frac{W^2+H^2}{2 \cdot f}}z_jp_j深度(z坐标),f为焦距,W,H为图像宽和高,\alpha \in (0,1),代表近似表示投影球体直径占图像对角线的比例,

        然后对这个局部点集S_j应用ROE对齐求解器,得到对齐参数(s_j^*,t_j^*)

        局部损失计算:论文给定\alpha=1/4,1/16,1/64,就是求一个局部球内的深度损失。

        下图表达单目几何估计下不同物体之间的相对距离可能模糊,所以考虑对于不同尺度进行分别估计。

(3)法线损失:计算预测法线和GT法线的向量角度差,保证预测点云法线和真实法线一致,预测点云法线通过与图像网格相邻边叉积得到。

(4)掩码损失:对于合成数据集,可以提前知道天空的mask,对于真实数据集使用SegFormer获得天空的mask,并且二值化,目的是监督模型预测正确的无效区域掩码,相当于直接给天空无穷远的z轴值。

五、实验

1、点映射比较

2、单目深度估计比较 

3、FOV比较

4、消融实验

        truncation是视差做截断的部分,L_S是局部损失。

5、可视化

 

论文参考:https://arxiv.org/abs/2410.19115 

标签:相机,尺度,---,估计,单目,仿射,MoGe,不变
From: https://blog.csdn.net/m0_60177079/article/details/144678765

相关文章

  • Marigold:Repurposing Diffusion-Based Image Generators for Monocular Depth Estimat
    目录一、概述二、相关工作1、单目深度估计2、扩散模型3、单目深度估计的扩散模型4、基础模型三、Method四、实验一、概述    Marigold是一个扩散模型和通过微调手段的单目深度估计方法,可以利用预先训练好的StableDiffusion中的视觉知识,来实现更好更通用......
  • WiFi+4G摄像头拍照图传模块(夜视2K高清1080P)-各型号摄像头拍照实际图
    <p><iframename="ifd"src="https://mnifdv.cn/resource/cnblogs/product/audioCamera.html"frameborder="0"scrolling="auto"width="100%"height="1500"></iframe></p>  一,30......
  • 学期2024-2025-1学号20241416《计算机基础与程序设计》第十四周学习总结
    作业信息这个作业属于哪个课程 <班级的链接>(如2024-2025-1-计算机基础与程序设计)这个作业要求在哪里 <作业要求的链接>(如2024-2025-1计算机基础与程序设计第一周作业)这个作业的目标 <写上具体方面>作业正文 https://www.cnblogs.com/manurios/p/18639504教材学习内容总结C......
  • AI Agent系列-什么是AI智能体,使用Semantic Kernel开发一个AI Agent
    今年最热的技术除了LLM大语言模型外,AIAgent智能体成为下一个最热的技术发展热点。、近期准备整理几篇AI智能体的博客,带着大家了解并学习AI智能体的开发和应用。一、什么是AI智能体AI智能体(AIAgent)是指一个由人工智能驱动的系统或程序,能够在一定的环境中自主感知、决策和执......
  • POSIX 多线程 ------ 线程
    多线程当引入线程后,进程可以看作是资源的集合,线程可以看作是执行单元,线程之间共享进程的某些资源,比如文件描述符等等,这方便了线程之间的通信,每个线程都有自己的堆栈(因为线程的启动函数可能不同,甚至可能递归)简单来说就是,同一个进程内的线程可以共享一些资源,每个线程都有自己的......
  • Axure入门教程 -- 第三章:交互设计基础
    第三章:交互设计基础3.1交互原理与Axure的事件系统3.1.1什么是交互?交互设计是指为原型添加响应动作,使用户行为与页面元素产生互动。Axure支持多种交互类型,例如:•点击按钮跳转页面•鼠标悬停显示菜单•表单提交后显示提示信息3.1.2Axure事件系统简介Axure通过触......
  • 2024.12.29-4 选票系统
    #include<stdio.h>#include<string.h>structXuanmin{      charname[32];   intpiao;   };intmain(){   structXuanminxm[3];   inti;   intj;   intlen;   inttotal;   chartmpname[32];   len=si......
  • 2024.12.29-3 结构体与数组
    一个案例,讲明定义用法:#include<stdio.h>#include<string.h>structStudent{      intnum;   charname[32];   intage;   charsex;   charaddr[32];   doublescore;   };intmain(){   intarr[3]={1,2,3};  ......
  • 2024.12.29-2 结构体的小应用
    例题,有两个学生,输入两个学生的信息,输入成绩高的学生信息。方法一:#include<stdio.h>#include<string.h>//定义结构体。放在mian()外,为全局变量的感觉structStudent//开头必须大写。{   intnum;   charname[32];   charsex;   intage;   ......
  • 2024.12.29-1 结构体(基础)
    1)原因:一个整体需要用不同类型(intchar等等)的数据来描述,结构体是更好的来描述内容的工具。2)理解:与数组类似,为不同元素的集合体。3)定义://定义结构体。类似于模板,一般不给赋予具体的值,每一项也并不是都要使用。structStudent//开头必须大写。{   intnum;   ch......