首页 > 其他分享 >[Paper Reading] Sapiens: Foundation for Human Vision Models

[Paper Reading] Sapiens: Foundation for Human Vision Models

时间:2024-09-04 18:27:19浏览次数:13  
标签:Sapiens Foundation 数据量 训练 Models 样本 任务 Human 数据

名称

link
时间:24.08
机构:Meta RealityLabs

TL;DR

放出一个human-centric视觉任务的fundation model,该模型在3亿样本(Humans-300M)上进行无监督预训练,实验证明在human-centric视觉任务(2d pose估计/深度估计/body-part-seg等)效果相对于没有预训练有明显提升。

Method

Human300M数据集

收集1B数据,使用Human Detector过滤留下高分样本。第一人称视角数据。大多数据图像中为多人样本。

Pretrain

MAE

Pretext-Task上效果

下游任务

使用少量高清数据进行Finetune,每类任务用比较经典的方法,例如 PoseEstimation使用ViTPose

Q&A

数据集与训练方法是否开源?
有没有证明 linear eval的效果

Experiment

与其它数据预训练对比

不同数据量预训练对于Normal Estimation任务的提升

总结与发散

数据量较少时,预训练还是有比较大作用的。

相关链接

引用的第三方的链接

资料查询

折叠Title FromChatGPT(提示词:XXX)

标签:Sapiens,Foundation,数据量,训练,Models,样本,任务,Human,数据
From: https://www.cnblogs.com/fariver/p/18397126

相关文章

  • PBR-Book Ch8 Reflection Models
    PBR-BookCh8ReflectionModelsReflectionModels(pbr-book.org)球坐标系中,使用\((\theta,phi)\)\(\theta\)givendirectiontothe\(z\)axis\(\phi\)theangleformedwiththe\(x\)axisafterprojectionofdirectionontothe\(xy\)lane.......
  • PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transit
    本文是LLM系列文章,针对《PoLLMgraph:UnravelingHallucinationsinLargeLanguageModelsviaStateTransitionDynamics》的翻译。PoLLMgraph:通过状态转换动力学揭示大型语言模型中的幻觉摘要1引言2相关工作3PoLLMgraph4实验5结论局限性摘要尽管近......
  • Social Skill Training with Large Language Models
    本文是LLM系列文章,针对《SocialSkillTrainingwithLargeLanguageModels》的翻译。大型语言模型的社交技能训练摘要1引言2角色和模拟的LLM3APAM框架4安全部署愿景5技术挑战6评估7讨论8总结与展望摘要人们依靠解决冲突等社交技能进行有效沟通,......
  • [Paper Reading] ControlNet: Adding Conditional Control to Text-to-Image Diffusio
    ControlNet:AddingConditionalControltoText-to-ImageDiffusionModelslink时间:23.11机构:StandfordTL;DR提出ControlNet算法模型,用来给一个预训练好的text2image的diffusionmodel增加空间条件控制信息。作者尝试使用5w-1M的edges/depth/segmentation/pose等信息训练Co......
  • FPGA第 7 篇,FPGA开发环境搭建,Altrea开发环境搭建,Quartus几个版本之间的区别,以Quartus/
    前言我们知道FPGA的应用领域非常广泛,包括但不限于以下,请看,而且未来应用前景也可以,几乎涵盖了所有涉及数字信号处理和技术实现的领域。上期我们介绍了FPGA的基础知识数字电路,请看,FPGA与数字电路https://blog.csdn.net/weixin_65793170/article/details/141363656?spm=10......
  • VMware Cloud Foundation 9 发布 - 领先的多云平台
    VMwareCloudFoundation9发布-领先的多云平台高效管理虚拟机(VM)和容器工作负载,为本地部署的全栈超融合基础架构(HCI)提供云的优势。请访问原文链接:https://sysin.org/blog/vmware-cloud-foundation-9/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.orgVMware......
  • BAdam A Memory Efficient Full Parameter Optimization Method for Large Language M
    目录概BAdam代码LuoQ.,YuH.andLiX.BAdam:Amemoryefficientfullparameteroptimizationmethodforlargelanguagemodels.arXivpreprint,2024.概本文介绍了一种Blockcorrdinatedescent(BCD)的训练方式.BAdam当模型本身很大的时候,训练它会成为一......
  • SwapPrompt(论文解读): Test-Time Prompt Adaptation for Vision-Language Models
    2023(NeuralIPS)摘要测试自适应(TTA)是无监督域自适应(UDA)中一种特殊且实用的设置,它允许源域中的预训练模型去适应另一个目标域中的未标记测试数据。为了避免计算密集型的骨干网络微调过程,因此利用预训练视觉语言模型(例CLIP、CoOp)zero-shot的泛化潜力,仅对未见测试域的运行时......
  • MIXLORA: Enhancing Large Language Models Fine-Tuning with LoRA-based Mixture of
    本文是LLM系列文章,针对《MIXLORA:EnhancingLargeLanguageModelsFine-TuningwithLoRA-basedMixtureofExperts》的翻译。MIXLORA:通过基于LoRA的专家混合来增强大型语言模型的微调摘要1引言2相关工作3MIXLORA4实验5结论摘要微调大型语言模型(LLM)......
  • LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large
    本文是LLM系列文章,针对《LogicBench:TowardsSystematicEvaluationofLogicalReasoningAbilityofLargeLanguageModels》的翻译。LogicBench:大型语言模型逻辑推理能力的系统评价摘要1引言2相关工作3LogicBench4结果和分析5结论局限性摘要最近......