首页 > 其他分享 >PaliGemma 模型选择

PaliGemma 模型选择

时间:2024-07-23 09:19:03浏览次数:9  
标签:448 ft 模型 paligemma 选择 PaliGemma https 3b 224

PaliGemma 是 Google 开发的轻量级的具有多模态功能的视觉语言模型 (VLM)。

https://ai.google.dev/gemma/docs/paligemma?hl=zh-cn

Google 提供了三种可下载的模型类型:

  • PT checkpoints 预训练模型;
  • Mix checkpoints 针对各种任务已经微调过的通用预训练模型;
  • FT checkpoints 针对特定学术数据集微调的专用模型;

它们的区别如下:

一、PT checkpoints

预训练模型,可以进行下游任务的微调。

可以看到的模型有下面这些:

google/paligemma-3b-pt-224
google/paligemma-3b-pt-448
google/paligemma-3b-pt-896

google/paligemma-3b-pt-224-jax
google/paligemma-3b-pt-448-jax
google/paligemma-3b-pt-896-jax

google/paligemma-3b-pt-224-keras
google/paligemma-3b-pt-448-keras
google/paligemma-3b-pt-896-keras

名字中参数的解释如下:

输入分辨率

  • 224:指模型使用 224 x 224 像素的输入图像。
  • 448:指模型使用 448 x 448 像素的输入图像。
  • 896:指模型使用 896 x 896 像素的输入图像。

框架

  • 无后缀(默认):一般情况下,这是基于 PyTorch 框架的模型。
  • jax:表示模型是使用 JAX 框架实现的。JAX 是一个用于高性能机器学习研究的库,允许使用 NumPy 代码并且具有自动微分和硬件加速能力。
  • keras:表示模型是使用 Keras API 实现的。Keras 是一个高层神经网络 API,能够运行在 TensorFlow、CNTK、或 Theano 之上,主要用于快速原型设计。

这个系列的模型是预训练模型,不能直接拿来使用。

二、Mix checkpoints

经过多任务微调的通用模型。
适用于通用的自由文本提示推理。

直接拿来用的就是这个系列的模型,其它模型都需要先微调,并测试输出,然后再将其部署给最终用户。

可以看到的模型有下面这些:

google/paligemma-3b-mix-224
google/paligemma-3b-mix-448

google/paligemma-3b-mix-224-jax
google/paligemma-3b-mix-448-jax

google/paligemma-3b-mix-448-keras
google/paligemma-3b-mix-224-keras

参数区别同上。

三、FT checkpoints

针对特定学术数据集微调的专用模型。

https://www.kaggle.com/models/google/paligemma-ft

只在特定场景下效果好,通用性并不佳。

比如下面这些模型:

  • paligemma-3b-ft-ai2d-224
  • paligemma-3b-ft-ai2d-448
  • paligemma-3b-ft-aokvqa-da-224
  • paligemma-3b-ft-aokvqa-da-448
  • paligemma-3b-ft-aokvqa-mc-224
  • paligemma-3b-ft-aokvqa-mc-448

其中参数含义如下:

  • ft 表示这是一个微调模型(fine-tuned model),相对于预训练模型(pretrained model),它已经在特定任务上进行了微调。

  • 每个模型名称末尾的数字(例如 224, 448, 896)表示输入图像的分辨率。

  • ai2d、aokvqa-mc 这些表示模型微调的任务或数据集。详细的看下面:

支持的模型微调数据集

AI2D

https://allenai.org/data/diagrams

说明图数据集,用于研究图表理解和相关问题解答。

  • paligemma-3b-ft-ai2d-224
  • paligemma-3b-ft-ai2d-448

A-OKVQA

https://allenai.org/project/a-okvqa/home
基于知识的视觉问答

MC 指 多选题 (Multiple-Choice)
DA 指 直接回答 (Direct-Answer)

  • paligemma-3b-ft-aokvqa-da-224
  • paligemma-3b-ft-aokvqa-da-448
  • paligemma-3b-ft-aokvqa-mc-224
  • paligemma-3b-ft-aokvqa-mc-448

COCO-35L

https://arxiv.org/pdf/2205.12522

多语言图像数据集

  • paligemma-3b-ft-coco35l-224
  • paligemma-3b-ft-coco35l-448

COCO captions

https://cocodataset.org/#home

对象检测、分割和字幕数据集。

  • paligemma-3b-ft-cococap-224
  • paligemma-3b-ft-cococap-448

DocVQA

https://www.docvqa.org/

文档视觉问答

  • paligemma-3b-ft-docvqa-224
  • paligemma-3b-ft-docvqa-448
  • paligemma-3b-ft-docvqa-896

GQA

图像场景问答

https://cs.stanford.edu/people/dorarad/gqa/about.html

  • paligemma-3b-ft-gqa-224
  • paligemma-3b-ft-gqa-448

Infographic VQA

视觉问答

https://openaccess.thecvf.com/content/WACV2022/papers/Mathew_InfographicVQA_WACV_2022_paper.pdf

  • paligemma-3b-ft-infovqa-224
  • paligemma-3b-ft-infovqa-448
  • paligemma-3b-ft-infovqa-896

NLVR2

https://lil.nlp.cornell.edu/nlvr/

视觉推理

  • paligemma-3b-ft-nlvr2-224
  • paligemma-3b-ft-nlvr2-448

OCR-VQA

https://ocr-vqa.github.io/
读取图像中的文本进行视觉问答。

  • paligemma-3b-ft-ocrvqa-224
  • paligemma-3b-ft-ocrvqa-448
  • paligemma-3b-ft-ocrvqa-896

OKVQA

https://okvqa.allenai.org/
知识视觉问答数据集

  • paligemma-3b-ft-okvqa-224
  • paligemma-3b-ft-okvqa-448

RefCOCO

https://arxiv.org/abs/1608.00272

用于引用表达理解和图像分割任务的数据集。它的全名是 Referring Expressions Comprehension。这个数据集的主要目的是评估模型在给定自然语言描述的情况下定位和识别图像中特定对象的能力。

  • paligemma-3b-ft-refcoco-seg-224
  • paligemma-3b-ft-refcoco-seg-448
  • paligemma-3b-ft-refcoco-seg-896

RSVQA

Remote Sensing VQA - Low Resolution (RSVQA LR)
低分辨率遥感图像
https://zenodo.org/records/6344334

  • paligemma-3b-ft-rsvqa-lr-224
  • paligemma-3b-ft-rsvqa-lr-448

Remote Sensing VQA - High Resolution (RSVQA HR)
高分辨率遥感图像
https://zenodo.org/records/6344367

  • paligemma-3b-ft-rsvqa-hr-224
  • paligemma-3b-ft-rsvqa-hr-448

SciCap

https://arxiv.org/abs/2110.11624

为图表生成说明文字数据集

  • paligemma-3b-ft-scicap-224
  • paligemma-3b-ft-scicap-448

ScienceQA

https://scienceqa.github.io/

收集自中小学科学课程,包含 21,208 个多模式多项选择科学问题。

  • paligemma-3b-ft-science-qa-224
  • paligemma-3b-ft-science-qa-448

Screen2words

https://arxiv.org/abs/2108.03353

移动用户界面数据集

  • paligemma-3b-ft-screen2words-224
  • paligemma-3b-ft-screen2words-448

SceneText VQA

https://arxiv.org/abs/1905.13648

场景文字视觉问答数据集

  • paligemma-3b-ft-stvqa-224
  • paligemma-3b-ft-stvqa-448
  • paligemma-3b-ft-stvqa-896

TallyQA

https://arxiv.org/abs/1810.12440

复杂的视觉问题计数数据集

  • paligemma-3b-ft-tallyqa-224
  • paligemma-3b-ft-tallyqa-448

TextCaps

用于对图像字幕任务中的阅读理解进行基准测试的数据集。

https://textvqa.org/textcaps/

  • paligemma-3b-ft-textcaps-224
  • paligemma-3b-ft-textcaps-448

TextVQA

https://textvqa.org/

基于图像中的文本对视觉推理进行基准测试的数据集。

  • paligemma-3b-ft-textvqa-224
  • paligemma-3b-ft-textvqa-448
  • paligemma-3b-ft-textvqa-896

VizWiz VQA

https://vizwiz.org/tasks-and-datasets/vqa/

回答盲人提出的视觉问题数据集。

  • paligemma-3b-ft-vizwizvqa-224
  • paligemma-3b-ft-vizwizvqa-448

VQAv2

https://visualqa.org/index.html

有关图像的开放式问题,每张图片至少 3 个问题(平均 5.4 个问题),每个问题 3 个看似合理(但可能不正确)的答案。

  • paligemma-3b-ft-vqav2-224
  • paligemma-3b-ft-vqav2-448

Widget Captioning

移动端的用户界面元素

https://arxiv.org/abs/2010.04295

  • paligemma-3b-ft-widgetcap-224
  • paligemma-3b-ft-widgetcap-448

选择总结

这三种模型的适用场景如下:

  • PT预训练模型,不能直接用,可作为微调的基础。

  • Mix模型适用于多种任务,具有较强的通用性。

  • FT模型专注于特定任务,在这些任务上表现优异。

标签:448,ft,模型,paligemma,选择,PaliGemma,https,3b,224
From: https://www.cnblogs.com/ghj1976/p/18317527/paligemma-mo-xing-xuan-ze

相关文章

  • 在安卓手机上用 ollama 运行开源大模型
    License:CCBY-NC-SA4.0前言一种不刷机,不用root的解决方案。如果有条件可以root后装LinuxDeploy或者干脆刷成linux.正文先要装上termux.加速proot-distro下载以ArchLinux为例。vi/data/data/com.termux/files/usr/etc/proot-distro/archlinux.sh把里面......
  • Django 在模型方法中预取
    所以我有一个Django模型,它是其他几个模型的外键。我想向我的模型添加一个方法,并查看我的模型实例是否确实具有任何相关对象。两个问题:我想通过一个查询来完成此操作,但我不确定如何将prefetch_lated与“self”一起使用。我该怎么做?如果存在相关模型,有没有办法只......
  • 从Python中的列表列表中提取随机列表选择
    我有一个从图像生成的RGB值列表:color_list=[(192,155,120),(132,81,65),(226,226,199),(76,94,117),(140,157,178),(17,34,54),(217,213,139),(134,171,144),(98,123,95),(109,145,96),(181,109,92),(71,47,39),......
  • 我可以在 Neo4 模型中过滤半结构化节点吗?
    我正在使用带有Neo4j数据库的NeomodelPython包,并且很喜欢它。我当前正在使用filter()方法,但每次我对SemiStructuredNode中未定义的属性使用filter()方法时,都会收到错误。在下面的示例中,我的PersonSemiStructuredNode仅以姓氏作为属性,但数据库中的某些节点可......
  • pytorch CNN 模型参数存储不正确
    工作任务是制作一个CNN模型来对图像进行一些分类任务。另外,我应该能够在对图像进行分类后查看特征图,即应用卷积或池化操作后获得的图像。下面是我定义CNN类的方式:classConvNet(nn.Module):def__init__(self,input_channels,output_dim):super().__init__()......
  • 介绍一下TCP/IP 模型和 OSI 模型的区别
    OSI模型是由国际标准化组织制定的一个用于计算机或通信系统间互联的标准体系,一共有七层,由上而下分别为应用层,表示层,会话层,传输层,网络层,数据链路层和物理层,虽然OSI模型理论上更加全面,但实际上使用更多的主要是TCP/IP模型,它一共有四层,将OSI模型的中的应用层表示层和会......
  • CS229|Ch8-9|泛化、正则化、模型选择
    关键词:泛化性、过拟合、欠拟合;误差、偏差、方差及其关系;模型复杂度&偏差&方差&过拟合&欠拟合&误差之间关系泛化性generalization:performancesonunseendatatrainingdata——seentestdata——unseen过拟合overfit:predictaccuratelyontrainingdata(smalltraining......
  • C语言-选择结构程序设计
    通过例题,强化选择结构程序的编程技术例:从键盘输入3个整数,找出并输出其中数值最大的那一个。如果其中有一个以上的最大数(两数相等的情况),也要表示出来。//知识点:注意各语句中if和else的配对关系和相应的缩进书写形式#include<stdio.h>intmain(){inta=0;intb=0;......
  • 笔灵AI降重:智能写作的新选择
    每次击键都是对知识宝库的深入挖掘。然而,在追求学术卓越的征途中,查重的挑战往往令人陷入僵局。笔灵AI降重,以其创新的力量,为学术创作带来新的生机,成为您智慧的辅助,赋予您的创新精神在知识领域中自由飞翔的能力。在过去,降低论文的重复率是一场既费时又费力的战斗。但现在,借助笔灵......
  • 如何找到提升效率与创造力的神器?揭秘AI生成工具,顶级选择在此
    作为一名AI爱好者,我积累了许多实用的AI生成工具。今天,我想分享一些我经常使用的工具,这些工具不仅能帮助提升工作效率,还能激发创意思维。我们都知道,随着技术的进步,AI生成工具已经变得越来越智能,能够在多个领域提供强大的支持。它们涵盖了文案写作、图像处理、PPT制作等多个领域......