首页 > 编程语言 >LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

时间:2024-11-03 11:17:27浏览次数:3  
标签:切片 UHD Ratio 高分辨率 分辨率 times High ViT 图像

传统的大多模态模型(Large Multimodal Model,LMM)关注于固定的尺寸和有限的分辨率。本文以GPT-4V和LLaVa-1.5为代表,揭示了视觉编码策略的根本性系统缺陷。本文指出大多模态模型可以有效地感知任何长宽比和高分辨率的图像。

概述

为了实现LMM模型在多种长宽比和高分辨率的图像感知,存在两个主要挑战:1. 适应性:由于视觉编码器是在固定分辨率上预训练的,需要编码器处理大范围长宽比和分辨率的图像是困难的。简单的图像插值如果偏离预训练场景很远可能会导致分布不均匀问题。2. 效率:直接使用ViT编码高分辨率图像需要对于图像尺寸二次的计算复杂度。另外,LLM处理高分辨率图像中大量视觉令牌可能计算成本更高。

本文方法

模块化视觉编码

为了解决有不同长宽比的高分辨率图像,一种简单的方法是将ViT的位置嵌入插值到目标形状,以便作为一个整体进行直接编码。然而,由于二次计算成本和分布外问题导致的性能下降,这种方法是次优的。为了解决这种挑战,本文给出了一种模块化视觉编码策略,核心策略是将原生分辨率图像划分为更小的可变尺寸切片,其中每个切片的形状不会偏离ViT的标准预设置太远。通过可变大小的切片,本文的LLaVa UHD可以实现对原生分辨率图像的完全自适应,而无需填充或扭曲形状的整形。

高分辨率图像划分策略

图像切片策略的核心是决定高分辨率图像的分割。每个切片的分辨率变化最小。给定分辨率 ( W I , H I ) (W_{I},H_{I}) (WI​,HI​) 的图像和在分辨率 ( W v , H v ) (W_{v},H_{v}) (Wv​,Hv​) 预训练的ViT模型。首先决定处理图像的切片数量: N = ⌈ W I × H I W v × H v ⌉ N=\lceil \frac{W_{I}\times H_{I}}{W_{v}\times H_{v}}\rceil N=⌈Wv​×Hv​WI​×HI​​⌉。之后分解切片数量到 m m m 行和 n n n 列。为了选择最合适的划分,定义测量与标准ViT预训练设定偏离程度的分数:
S ( W I , H I , W v , H v , m , n ) = − ∣ log ⁡ W I × n H I × m − log ⁡ W v H v ∣ S(W_{I},H_{I},W_{v},H_{v},m,n)=-|\log \frac{W_{I}\times n}{H_{I}\times m}-\log \frac{W_{v}}{H_{v}}| S(WI​,HI​,Wv​,Hv​,m,n)=−∣logHI​×mWI​×n​−logHv​Wv​​∣

实践中,注意到某些情况下,N可能只有集中可能的因式分解方案,尤其是素数,这可能导致选择有限,从而导致图像的极端分割。为了解决这个问题,除了理想的切片数量,也允许对切片数量进行略微修改 N − 1 N-1 N−1, N + 1 N+1 N+1 以得到更多的划分选择。

任意长宽比切片编码

大部分已有的LMM使用静态的分辨率执行图像切片编码。这基本上阻止了对原始分辨率的完全自适应,因为只有几个预定义的固定形状切片可用。另外,静态切片分辨率不可避免地导致填充或形状扭曲的大小调整,这会损害性能、效率甚至准确性。

为了解决这个问题,本文提出按划分策略给出的长宽比对图像切片进行编码。具体地,根据长宽比按照比例调整原始图像的大小,使得补丁数量最大限度地符合预训练预算。然后按照ViT预训练设置,将预训练一维位置嵌入序列重塑为二维格式 P ∈ R q × q × l P\in \mathbb{R}^{q\times q\times l} P∈Rq×q×l,其中 M = q × q M=q\times q M=q×q。然后二维插值 P P P 到根据视觉编码的划分策略对应的切片分辨率。

压缩层

高分辨率图像需要LLM处理显著更多的视觉令牌,这占据了计算的主要部分。例如,672x1008分辨率的图像输入LLaVA-1.5将产生3456视觉令牌。为了解决这个问题,本文使用共享的感知重采样层压缩每个图像切片的视觉令牌。具体地,通过交叉注意力使用一组查询向量将视觉编码器输出的图像令牌重新采样到较低数字。与流行的MLP视觉投影方法相比,感知重采样器无论图像分辨率如何,都能保持固定且负担得起的视觉令牌数量,因此可以与高分辨率图像理解兼容。

标签:切片,UHD,Ratio,高分辨率,分辨率,times,High,ViT,图像
From: https://blog.csdn.net/qgh1223/article/details/143446820

相关文章

  • The server encountered an internal error or misconfiguration and was unable to c
    原因一:PHP版本不正确检查当前PHP版本通过FTP或控制面板查看当前使用的PHP版本。调整PHP版本登录您的虚拟主机控制面板。找到PHP版本设置,选择适合您应用的PHP版本。保存设置并重启站点。原因二:权限不正确检查文件和目录权限通过FTP或SSH登录服务器,检查关键文件......
  • [论文阅读] High-Resolution Image Synthesis with Latent Diffusion Models
    写在前面原文:https://arxiv.org/abs/2112.10752Github:https://github.com/CompVis/latent-diffusion?tab=readme-ov-file参考:https://stable-diffusion-art.com/how-stable-diffusion-work/关键词:stablediffusion,LDMs阅读理由:对DM高消耗的优化,解决速度问题。看一下优化思路,......
  • spring-boot-configuration-processor无法生效
    引入了依赖<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-configuration-processor</artifactId></dependency>编译项目之后并没有生成target/classes/META-INF/spring-configuration-metadata.json看......
  • Prometheus03 Prometheus服务发现, 各种exporter, 容器化监控, Federation联邦, Victo
    6服务发现6.1服务发现原理6.2文件服务发现#准备主机节点列表文件,可以支持yaml格式和json格式#注意:此文件不建议就地编写生成,可能出现加载一部分的情况cattargets/prometheus*.yaml-targets:-master1:9100labels:app:prometheus#修改prometheus配置......
  • 中国积极开展空间探索活动 China has actively carried out space exploration missio
    近年来,中国积极开展空间探索活动,“嫦娥”揽月、“天问”探火、“羲和”逐日、空间站巡天,不断深化人类对宇宙的认知,致力增进人类共同福祉。Chinahasactivelycarriedoutspaceexplorationmissionsinrecentyears,includingthelaunchesofChang'elunarprobes,theMar......
  • Seinfeld on Blu-ray, 4k UHD
    nowforpre-orderonAmazonDVD: https://www.amazon.com/Seinfeld-Complete-Box-Set-Repackage/dp/B07FVFL6K5/ref=tmm_dvd_title_0?_encoding=UTF8&amp&qid=1702581322&amp&sr=1-1Blu-ray: https://www.amazon.com/dp/B0DLF65P9R4kUHD: https://www.am......
  • ES操作RestHighLevelClient手册
    //设置分页searchSourceBuilder.from(1);searchSourceBuilder.size(5);//排序searchSourceBuilder.sort("age",SortOrder.DESC);searchSourceBuilder.sort("id",SortOrder.DESC);//数据过滤创建SearchSourceBuilder条件构造......
  • lowbit 与 highbit
    lowbitlowbit在竞赛中还是很常见的,比如树状数组就必须要用lowbit。lowbit的原理是利用原码,反码,补码的性质来获得数字在二进制下最低位的\(1\)。理解了原码,反码,补码,就不难理解lowbit了。lowbit代码如下:inline int lowbit(int x) {    return x & -x;......
  • IllegalMonitorStateException:Illegal Monitor Operation 完美解决方法 ⚙️
    ......
  • BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View阅读小
    BEVDet:High-PerformanceMulti-Camera3DObjectDetectioninBird-Eye-ViewBEVDet高性能多相机鸟瞰视图3D目标检测论文概述BEVDet是一种模块化设计的3D目标检测框架,以鸟瞰视图(Bird-Eye-View,BEV)执行3D目标检测,通过现有模块构建其框架,并通过定制数据增强策略和优化非......