首页 > 其他分享 >How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

时间:2025-01-18 18:32:10浏览次数:1  
标签:Suites Projector Far Gap Source 图像 GPT 高分辨率

InternVL1.5: 更强的视觉编码器,动态处理高分辨率图像,高质量的双语数据集。

主要内容

对标商业模型,提出InternVL1.5。更强的视觉编码器(InternViT-6B),动态处理高分辨率图像(将图像分成448*448的tails,最高支持4K分辨率),高质量的双语数据集(显著提高了OCR和中文相关任务的性能)。与开源和商业模型相比,在 8/18 个多模态benchmark上sota。

动机和方法

  1. Dynamic High-Resolution & Pixel Shuffle
    受UReader的启发,我们采用了一种动态的高分辨率训练方法,可以有效地适应输入图像的分辨率和宽高比的变化。该方法利用了图像分块的灵活性,增强了模型对细节的处理能力。
    Pixel Shuffle减少了Image tokens(1024 -> 256)。

  1. Two Stage Training
    第一阶段微调ViT+Projector,第二阶段微调ViT+Projector+LLM

  2. High-Quality Bilingual Dataset
    包含了大量的图文数据集,提供了一个数据翻译的pipeline

实验分析

在OCR任务上表现出色,

总结

开源做的很好,大量的pretrain datasets和benchmark,一般人也做不来

标签:Suites,Projector,Far,Gap,Source,图像,GPT,高分辨率
From: https://www.cnblogs.com/weihangzhang/p/18678454

相关文章

  • Open-Source License Policy
    Copyleft:要求修改后的代码必须以相同的许可证发布。Public:允许修改和分发,但可能需要提供原始代码的链接。Permissive:允许自由使用、修改和分发,通常不需要提供原始代码。Required:如果代码被修改,必须提供源代码。           LicensesNOTallowed......
  • 介绍5种从resources获取inputStream的方法
    在大多数情况下,推荐使用ResourceLoader或ClassPathResource来加载资源文件。@Component@Slf4jpublicclassTestFileService{@AutowiredprivateResourceLoaderresourceLoader;@PostConstructpublicvoidtestInputStream()throwsIOException{......
  • 在git上修改代码后发现master已经更新怎么办?(Sourcetree)
    首先把自己修改的代码提交到分支上,(此时提交推送后,去和master合并会产生冲突)那么如何解决这个master合并冲突呢?1.提交前,首先把master拉到最新状态2.然后基于master新建一个新的分支3.把修改代码的分支合并到新的分支上4.最后把这个新的分支提交并推送到远端,然后在去请......
  • spring项目使用@PropertySource("classpath:jdbc.properties")失效
    本人环境,java17,spring6.2.1在尝试将springxml方式全部换为注解和java类的方式的时候发现@PropertySource+@Value方式不能够正常读取注入resources下的properties文件内容后续研究后解决往ioc中加入beanPropertySourcesPlaceholderConfigurer,并配置location,最后在需要使用p......
  • 如何解决定义了重复的 "system.web.extensions/scripting/scriptResourceHandler" 节
    问题描述在使用ASP.NET应用程序时,可能会遇到配置文件中定义了重复的 "system.web.extensions/scripting/scriptResourceHandler" 节的问题。这通常会导致应用程序无法正常启动或运行,并抛出配置错误。此问题的具体表现形式是:当尝试访问网站时,会收到一个配置错误提示,指出存在重复......
  • 使用try-with-resource实现自动解锁
    背景项目中使用Redission分布式锁,每次使用都需要显示的解锁。很麻烦,Java提供了try-with-resources语法糖,它不仅可以用于自动关闭流资源,还可以用于实现自动解锁。本文将介绍如何利用try-with-resources实现锁的自动释放,并通过代码示例来演示其应用。什么是try-with-resour......
  • 如何将CIFAR-10数据集转化为图片
    如何将CIFAR-10数据集转化为图片简单记录一下CIFAR-10数据集转图片的过程1.首先在官网下载CIFAR-10数据集官网下载得到文件如下2.想把他转化为jpg图片,从网上得到代码如下#-*-coding:utf-8-*-fromscipy.miscimportimsaveimportnumpyasnpimportpickle......
  • 在Windows上调试iOS Safari中的H5页面
    本次开发的web页面需要适配移动端,第一个版本在发布到线上,发现ios设备一直打不开网页,无论是自带的safari浏览器还是其他浏览器,页面经常出现“***页面重复出现错误”,但是在本地以及使用PC浏览器模拟都没有复现该问题。为了进行线上的调试查询了一下如何在windows上调试ios的浏览器we......
  • 在 Safari 浏览器中,快速将页面恢复到 100% 缩放(也就是默认尺寸)Command (⌘) + 0 (零)
    在Safari浏览器中,没有一个专门的快捷键可以将页面恢复到默认的缩放比例。但是,你可以使用以下两种方法快速将页面恢复到100%缩放(也就是默认尺寸):方法一:使用快捷键(最常用)Command(⌘)+0(零)这个快捷键会立即将当前页面的缩放比例重置为100%。这是最常用的方式,......
  • MifareUltralight.close
    MifareUltralight.close(Objectobject)基础库2.11.2开始支持,低版本需做兼容处理。以Promise风格调用:不支持小程序插件:支持微信iOS版:不支持微信Android版:支持相关文档:近场通信(NFC)功能描述断开连接参数Objectobject属性类型默认值必填说明......