Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface

时间：2024-09-22 20:01:10浏览次数：9

标签：Foundation shot 训练模型 zero 相机 Depth 数据

paper	Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation
作者	Mu Hu1∗, Wei Yin2∗†, Chi Zhang3, Zhipeng Cai4, Xiaoxiao Long5‡, Hao Chen6, Kaixuan Wang1, Gang Yu7, Chunhua Shen6, Shaojie Shen1
publish	PAMI 2024
git	https://github.com/YvanYin/Metric3D
状态	阅读中
分类	单目深度估计
创新点	针对现有深度测量问题以及表面法向量估计问题，无法zero-shot进行，提出了一种典型的相机空间转换模型，可以明显解决模棱两可问题，能够有效加入到现有单目模型中。对表面法向量估计，提出一种深度-法向量结合优化模型，以蒸馏深度估计中数据依赖问题？使得向量估计能够在没有正常标签时也可以进行学习。模型基于16M图像进行训练，这些来自于数以千计的相机，同时标注类型也不同，使得模型能够zero-shot扩展到没有见过的相机上。我们的方法目前在深度估计任务中在zero-shot和非zero-shot中均是SOTA效果。同时在表面法向量估计上也是。把所有数据变换到一个典型相机空间下，这样所有数据都可以粗略认为是来自同一个相机。首先把图像表面调整到典型相机下，然后把gt变换过来。同时在推理时，反典型变换会把尺寸信息变换回来。通过随机crop，增强Scale- and shift-invariant losses，这个loss增强了局部几何和单图的分布。模型预训练用的是DINOV2，有两个模型，一个large, 一个是giant，自学习用的是imagenet22k数据，大概142M数据，也就是所有imagenet数据集用于预训练，而后用收集的深度数据对模型进行训练。用imagenet22k这个数据进行自监督预训练，而后再用大概16M进行训练模型(vit模型)，这16M数据是收集了18个公开数据集，有些数据集没有depth信息，是通过lidar的3d信息映射到图像上的，但是精度不够，于是不能用于精确调整loss。小模型用的是11个数据集的8M数据进行训练。在这个过程中，对不是很精准的数据也做了调整，就是有些loss不计算。
questions	但是模型并没有去做实验，不用22k预训练效果会如何？

标签：Foundation,shot,训练,模型,zero,相机,Depth,数据
From： https://www.cnblogs.com/jianyingzhou/p/18425778

探索未来智能：Moonshot AI 引领AI新纪元——M1超级模型
在人工智能的快速演进中，MoonshotAI再次站在了技术创新的前沿。推出M1超级模型，这是一款旨在突破现有AI能力极限的革命性产品。M1超级模型的诞生背景随着数据量的爆炸性增长和计算能力的提升，AI模型正变得越来越复杂和强大。M1超级模型的诞生是对这一趋势的直接响应，它代表了Moons......
论文阅读笔记：Sapiens: Foundation for Human Vision Models
Sapiens:FoundationforHumanVisionModels1背景1.1问题1.2目标2方法3创新点4模块4.1Humans-300M数据集4.2预训练4.32D位姿估计4.4身体部位分割4.5深度估计4.6表面法线估计5实验5.1实现细节5.22D位姿估计5.3身体部位分割5.4深度估计5.5表面法线估......
【CSS in Depth 2 精译_033】5.4 Grid 网格布局的显示网格与隐式网格（中）
当前内容所在位置（可进入专栏查看其他译好的章节内容）第一章层叠、优先级与继承（已完结）1.1层叠1.2继承1.3特殊值1.4简写属性1.5CSS渐进式增强技术1.6本章小结第二章相对单位（已完结）2.1相对单位的威力2.2em与rem2.3告别像素思维2.4视口的相对单位2.5......
Align Your Prompts论文解读: Test-Time Prompting with Distribution Alignment for
Comment:AcceptedtoNeurIPS2023对齐提示：用于zero-shot泛化的测试时提示分布对齐摘要CLIP等视觉语言模型的zero-shot泛化已经引领它们在下游任务中使用提示学习。先前的工作已经表明使用熵最小化进行测试时提示调优，调整文本提示适应未见过的领域。尽管这样的方法非常高效......
【CSS in Depth 2 精译_032】5.4 Grid 网格布局的显示网格与隐式网格（上）
当前内容所在位置（可进入专栏查看其他译好的章节内容）第一章层叠、优先级与继承（已完结）1.1层叠1.2继承1.3特殊值1.4简写属性1.5CSS渐进式增强技术1.6本章小结第二章相对单位（已完结）2.1相对单位的威力2.2em与rem2.3告别像素思维2.4视口的相对单位2.5......
AnomalyLLM: Few-shot Anomaly Edge Detection for Dynamic Graphs using Large Langu
本文是LLM系列文章，针对《AnomalyLLM:Few-shotAnomalyEdgeDetectionforDynamicGraphsusingLargeLanguageModels》的翻译。AnomalyLLM：使用大型语言模型对动态图进行少量异常边缘检测摘要1引言2相关工作3前言4方法5实验6结论摘要检测动态图的......
Depth靶机详解
靶机下载地址https://www.vulnhub.com/entry/depth-1,213/主机发现arp-scan-l端口扫描nmap-sV-A-T4192.168.229.156端口利用http://192.168.229.156:8080/目录扫描dirb"http://192.168.229.156:8080"dirsearch-u"http://192.168.229.156:8080"......
Zero-Shot，One-Shot，Few-Shot，In-Context Learning
Zero-Shot，One-Shot，Few-Shot，In-ContextLearninghttps://blog.csdn.net/weixin_44212848/article/details/139902394In-ContextLearning定义：In-contextlearning是一种在不显式微调模型权重的情况下，通过给模型提供相关的上下文信息（例如提示或样本）来实现模型性能提升的方法。GPT......
COMM 1100 Foundations of Communication
COMM1100(A11)FOUNDATIONSOFCOMMUNICATIONSTUDIESFall2024COURSEDESCRIPTIONThiscourseoffersacomprehensiveoverviewofwhatitmeanstostudycommunications.Studentswillexploreclassicdefinitionsandmodelsofcommunicationsandtracehowth......
【CSS in Depth 2 精译_030】5.2 Grid 网格布局中的网格结构剖析（下）
当前内容所在位置（可进入专栏查看其他译好的章节内容）第一章层叠、优先级与继承（已完结）1.1层叠1.2继承1.3特殊值1.4简写属性1.5CSS渐进式增强技术1.6本章小结第二章相对单位（已完结）2.1相对单位的威力2.2em与rem2.3告别像素思维2.4视口的相对单位2.5......

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface

相关文章

赞助商

阅读排行