paper |
Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation |
作者 |
Mu Hu1∗, Wei Yin2∗†, Chi Zhang3, Zhipeng Cai4, Xiaoxiao Long5‡, Hao Chen6, Kaixuan Wang1, Gang Yu7, Chunhua Shen6, Shaojie Shen1 |
publish |
PAMI 2024 |
git |
|
状态 |
阅读中 |
分类 |
单目深度估计 |
创新点 |
针对现有深度测量问题以及表面法向量估计问题,无法zero-shot进行,提出了一种典型的相机空间转换模型,可以明显解决模棱两可问题,能够有效加入到现有单目模型中。对表面法向量估计,提出一种深度-法向量结合优化模型,以蒸馏深度估计中数据依赖问题?使得向量估计能够在没有正常标签时也可以进行学习。模型基于16M图像进行训练,这些来自于数以千计的相机,同时标注类型也不同,使得模型能够zero-shot扩展到没有见过的相机上。我们的方法目前在深度估计任务中在zero-shot和非zero-shot中均是SOTA效果。同时在表面法向量估计上也是。 把所有数据变换到一个典型相机空间下,这样所有数据都可以粗略认为是来自同一个相机。首先把图像表面调整到典型相机下,然后把gt变换过来。同时在推理时,反典型变换会把尺寸信息变换回来。通过随机crop,增强Scale- and shift-invariant losses,这个loss增强了局部几何和单图的分布。 模型预训练用的是DINOV2,有两个模型,一个large, 一个是giant,自学习用的是imagenet22k数据,大概142M数据,也就是所有imagenet数据集用于预训练,而后用收集的深度数据对模型进行训练。用imagenet22k这个数据进行自监督预训练,而后再用大概16M进行训练模型(vit模型),这16M数据是收集了18个公开数据集,有些数据集没有depth信息,是通过lidar的3d信息映射到图像上的,但是精度不够,于是不能用于精确调整loss。小模型用的是11个数据集的8M数据进行训练。 在这个过程中,对不是很精准的数据也做了调整,就是有些loss不计算。 |
questions |
但是模型并没有去做实验,不用22k预训练效果会如何? |