首页 > 其他分享 >Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface

时间:2024-09-22 20:01:10浏览次数:1  
标签:Foundation shot 训练 模型 zero 相机 Depth 数据

paper

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation

作者

Mu Hu1, Wei Yin2∗†, Chi Zhang3, Zhipeng Cai4, Xiaoxiao Long5, Hao Chen6, Kaixuan Wang1, Gang Yu7, Chunhua Shen6, Shaojie Shen1

publish

PAMI 2024

git

https://github.com/YvanYin/Metric3D

状态

阅读中

分类

单目深度估计

创新点

针对现有深度测量问题以及表面法向量估计问题,无法zero-shot进行,提出了一种典型的相机空间转换模型,可以明显解决模棱两可问题,能够有效加入到现有单目模型中。对表面法向量估计,提出一种深度-法向量结合优化模型,以蒸馏深度估计中数据依赖问题?使得向量估计能够在没有正常标签时也可以进行学习。模型基于16M图像进行训练,这些来自于数以千计的相机,同时标注类型也不同,使得模型能够zero-shot扩展到没有见过的相机上。我们的方法目前在深度估计任务中在zero-shot和非zero-shot中均是SOTA效果。同时在表面法向量估计上也是。

把所有数据变换到一个典型相机空间下,这样所有数据都可以粗略认为是来自同一个相机。首先把图像表面调整到典型相机下,然后把gt变换过来。同时在推理时,反典型变换会把尺寸信息变换回来。通过随机crop,增强Scale- and shift-invariant losses,这个loss增强了局部几何和单图的分布。

模型预训练用的是DINOV2,有两个模型,一个large, 一个是giant,自学习用的是imagenet22k数据,大概142M数据,也就是所有imagenet数据集用于预训练,而后用收集的深度数据对模型进行训练。用imagenet22k这个数据进行自监督预训练,而后再用大概16M进行训练模型(vit模型),这16M数据是收集了18个公开数据集,有些数据集没有depth信息,是通过lidar的3d信息映射到图像上的,但是精度不够,于是不能用于精确调整loss。小模型用的是11个数据集的8M数据进行训练。 在这个过程中,对不是很精准的数据也做了调整,就是有些loss不计算。

questions

但是模型并没有去做实验,不用22k预训练效果会如何?

标签:Foundation,shot,训练,模型,zero,相机,Depth,数据
From: https://www.cnblogs.com/jianyingzhou/p/18425778

相关文章

  • 探索未来智能:Moonshot AI 引领AI新纪元——M1超级模型
    在人工智能的快速演进中,MoonshotAI再次站在了技术创新的前沿。推出M1超级模型,这是一款旨在突破现有AI能力极限的革命性产品。M1超级模型的诞生背景随着数据量的爆炸性增长和计算能力的提升,AI模型正变得越来越复杂和强大。M1超级模型的诞生是对这一趋势的直接响应,它代表了Moons......
  • 论文阅读笔记:Sapiens: Foundation for Human Vision Models
    Sapiens:FoundationforHumanVisionModels1背景1.1问题1.2目标2方法3创新点4模块4.1Humans-300M数据集4.2预训练4.32D位姿估计4.4身体部位分割4.5深度估计4.6表面法线估计5实验5.1实现细节5.22D位姿估计5.3身体部位分割5.4深度估计5.5表面法线估......
  • 【CSS in Depth 2 精译_033】5.4 Grid 网格布局的显示网格与隐式网格(中)
    当前内容所在位置(可进入专栏查看其他译好的章节内容)第一章层叠、优先级与继承(已完结)1.1层叠1.2继承1.3特殊值1.4简写属性1.5CSS渐进式增强技术1.6本章小结第二章相对单位(已完结)2.1相对单位的威力2.2em与rem2.3告别像素思维2.4视口的相对单位2.5......
  • Align Your Prompts论文解读: Test-Time Prompting with Distribution Alignment for
    Comment:AcceptedtoNeurIPS2023对齐提示:用于zero-shot泛化的测试时提示分布对齐摘要CLIP等视觉语言模型的zero-shot泛化已经引领它们在下游任务中使用提示学习。先前的工作已经表明使用熵最小化进行测试时提示调优,调整文本提示适应未见过的领域。尽管这样的方法非常高效......
  • 【CSS in Depth 2 精译_032】5.4 Grid 网格布局的显示网格与隐式网格(上)
    当前内容所在位置(可进入专栏查看其他译好的章节内容)第一章层叠、优先级与继承(已完结)1.1层叠1.2继承1.3特殊值1.4简写属性1.5CSS渐进式增强技术1.6本章小结第二章相对单位(已完结)2.1相对单位的威力2.2em与rem2.3告别像素思维2.4视口的相对单位2.5......
  • AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Langu
    本文是LLM系列文章,针对《AnomalyLLM:Few-shotAnomalyEdgeDetectionforDynamicGraphsusingLargeLanguageModels》的翻译。AnomalyLLM:使用大型语言模型对动态图进行少量异常边缘检测摘要1引言2相关工作3前言4方法5实验6结论摘要检测动态图的......
  • Depth靶机详解
    靶机下载地址https://www.vulnhub.com/entry/depth-1,213/主机发现arp-scan-l端口扫描nmap-sV-A-T4192.168.229.156端口利用http://192.168.229.156:8080/目录扫描dirb"http://192.168.229.156:8080"dirsearch-u"http://192.168.229.156:8080"......
  • Zero-Shot,One-Shot,Few-Shot,In-Context Learning
    Zero-Shot,One-Shot,Few-Shot,In-ContextLearninghttps://blog.csdn.net/weixin_44212848/article/details/139902394In-ContextLearning定义:In-contextlearning是一种在不显式微调模型权重的情况下,通过给模型提供相关的上下文信息(例如提示或样本)来实现模型性能提升的方法。GPT......
  • COMM 1100 Foundations of Communication
    COMM1100(A11)FOUNDATIONSOFCOMMUNICATIONSTUDIESFall2024COURSEDESCRIPTIONThiscourseoffersacomprehensiveoverviewofwhatitmeanstostudycommunications.Studentswillexploreclassicdefinitionsandmodelsofcommunicationsandtracehowth......
  • 【CSS in Depth 2 精译_030】5.2 Grid 网格布局中的网格结构剖析(下)
    当前内容所在位置(可进入专栏查看其他译好的章节内容)第一章层叠、优先级与继承(已完结)1.1层叠1.2继承1.3特殊值1.4简写属性1.5CSS渐进式增强技术1.6本章小结第二章相对单位(已完结)2.1相对单位的威力2.2em与rem2.3告别像素思维2.4视口的相对单位2.5......