[Paper Reading] LVM: Sequential Modeling Enables Scalable Learning for Large Vision Models

时间：2024-03-28 14:12:21浏览次数：34

标签：sequence Models Scalable Large PCK visual Sequential LVM Enables

LVM: Sequential Modeling Enables Scalable Learning for Large Vision Models

LVM: Sequential Modeling Enables Scalable Learning for Large Vision Models
时间：23.12
机构：UC Berkeley && Johns Hopkins University

TL;DR

本文提出一种称为大视觉模型(LVM)的方法，该方法以"visual seqence"为底层元数据来表示任何pixel级别的训练数据(图像、视频、分割图以及深度图)，通过AR(auto-regressive)的方式来构建训练任务。推理时以"visual prompt"的形式来完成各类视觉任务。

Method

visual seqence能够将多种多样视觉数据统一为元数据格式。

LVM有两个部分组成，一是visual sequence空间与图像之间相互转的VQ-GAN，二是AR预测image tokens的transformer。这两个部分是相互独立训练的。

ImageTokenization

作者使用LAION 5B训练的VQ-GAN作为toeknizer。原理类似于stable diffusion用的VQ-VAE。

visual sequence的序列建模

经过上一步抽取到visual sequence之后，后续的步骤与基于AR(autoregressive)的LLM几乎相同，即使用sequence前面的token逐渐预测整个visual sequence。具体实践上，作者使用LLaMA作为基本框架，context length设定为4096能够组成16张图像。模型在UVD v1(420billions，大约16亿图像)数据集上训练1个epoch。

Experiment

作者使用UVDv1中的纯video、纯image annotations以及混合(即完整数据集) 三类数据成分分别训练模型，使用5-shot promts在一些感知任务上测试(指标越低越好)，可以看出所有数据成分都使用效果最佳。

Q: 与supervied训练方法对比。
作者没有在COCO之类的经典感知测试集上与SOTA方法对比，但是在Pascal 3D+上Keypoint任务PCK达到81.2超过hourglass的68.0。

Unseen Tasks and Dataset. We present the results for keypoint detection on Pascal 3D+ [90], evaluated using the standard Percentage of Correct Keypoints (PCK) metric with a of threshold 0.1. Remarkably, LVM achieves a PCK of 81.2 without training on this dataset, demonstrating impres- sive generalization capabilities. In comparison, we show some existing task-specific model: StackedHourglass [61] scores 68.0 PCK, MSS-Net [43] achieves 68.9 PCK, and StarMap [101] registers 78.6 PCK.

总结与发散

暂无

资料查询

折叠Title

FromChatGPT(提示词：XXX)

标签：sequence,Models,Scalable,Large,PCK,visual,Sequential,LVM,Enables
From： https://www.cnblogs.com/fariver/p/18098999

笔记-《A Survey of Large Language Models》- 4 预训练
4预训练预训练为LLM的能力奠定了基础。通过在大规模语料库上进行预训练,LLM可以获得基本的语言理解和生成能力[55,56]。在这个过程中,预训练语料库的规模和质量对于LLM获得强大的能力至关重要。此外,为了有效地预训练LLM,也需要设计好模型架构、加速......
【论文和源码解读】Scaling on Scales：When Do We Not Need Larger Vision Models?
文章目录0.问题和想法1.观察和见解2.设计和框架2.1关键设计2.2模型框架3.源码解析3.1utils.py文件3.2core.py文件3.2.1forward函数中输入参数的含义3.2.2forward函数的处理逻辑4.消融实验5.未来可能的改进方向原文地址：https://arxiv.org/abs/2403.......
【论文精读】MAE：Masked Autoencoders Are Scalable Vision Learners 带掩码的自动编码
系列文章目录【论文精读】Transformer：AttentionIsAllYouNeed【论文精读】BERT：Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding【论文精读】VIT：visiontransformer论文文章目录系列文章目录一、前言二、文章概览（一）研究背景（二）MAE的主......
Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Underst
名称Imagen:PhotorealisticText-to-ImageDiffusionModelswithDeepLanguageUnderstanding时间：22/05机构：GoogleTL;DR发现使用LLM(T5)可以作为text2image任务的textencoder，并且提升LLM模型size相对于提升imageDM模型size性价比更高，生成的图像保真度更高，内容也更符合文......
[基础] DiT: Scalable Diffusion Models with Transformers
名称DiT:ScalableDiffusionModelswithTransformers时间：23/03机构：UCBerkeley&&NYUTL;DR提出首个基于Transformer的DiffusionModel，效果打败SD，并且DiT在图像生成任务上随着Flops增加效果会降低，比较符合scalinglaw。后续sora的DM也使用该网络架构。Method网络结构整......
阿里ModelScope应用案例-cnblog
信息抽取（实体识别）分词人像抠图摘要生成人体关键点表格搜索文本分类自然语言理解人像卡通化人像增强算法图文检索大模型与Agent文字识别......
Editing Factual Knowledge and Explanatory Ability of Medical Large Language Mode
本文是LLM系列文章，针对《EditingFactualKnowledgeandExplanatoryAbilityofMedicalLargeLanguageModels》的翻译。医学大语言模型的编辑事实知识与解释能力摘要1引言2相关工作3方法4实验5结论6局限性摘要模型编辑旨在精确地修改大型语言模型......
Jailbreaking Large Language Models in Few Queries via Disguise and Reconstructio
本文是LLM系列文章，针对《MakingThemAskandAnswer:JailbreakingLargeLanguageModelsinFewQueriesviaDisguiseandReconstruction》的翻译。让他们问答：通过伪装和重建在少数查询中打破大型语言模型的牢笼摘要1引言2背景和问题陈述3LLM微调中的安全偏......
[基础] Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion M
名称StableDiffusion,High-ResolutionImageSynthesiswithLatentDiffusionModelsTL;DR这篇文章介绍了一种名为潜在扩散模型（LatentDiffusionModels,LDMs）的新型高分辨率图像合成方法。LDMs通过在预训练的自编码器的潜在空间中应用扩散模型，实现了在有限计算资源下训练高......
R语言【paleoTS】——compareModels：比较模型适合于古生物学时间序列
Package paleoTS version0.5.3Description获取模型拟合函数的输出，并将模型拟合信息(对数似然、AICc等)编译成一个方便的表。UsagecompareModels(...,silent=FALSE,sort=FALSE)Arguments参数【...】：任意数量的模型拟合(as.paletsfit)对象。参数【silent】......