PaliGemma 是 Google 开发的轻量级的具有多模态功能的视觉语言模型 (VLM)。
https://ai.google.dev/gemma/docs/paligemma?hl=zh-cn
Google 提供了三种可下载的模型类型:
- PT checkpoints 预训练模型;
- Mix checkpoints 针对各种任务已经微调过的通用预训练模型;
- FT checkpoints 针对特定学术数据集微调的专用模型;
它们的区别如下:
一、PT checkpoints
预训练模型,可以进行下游任务的微调。
可以看到的模型有下面这些:
google/paligemma-3b-pt-224
google/paligemma-3b-pt-448
google/paligemma-3b-pt-896
google/paligemma-3b-pt-224-jax
google/paligemma-3b-pt-448-jax
google/paligemma-3b-pt-896-jax
google/paligemma-3b-pt-224-keras
google/paligemma-3b-pt-448-keras
google/paligemma-3b-pt-896-keras
名字中参数的解释如下:
输入分辨率
- 224:指模型使用 224 x 224 像素的输入图像。
- 448:指模型使用 448 x 448 像素的输入图像。
- 896:指模型使用 896 x 896 像素的输入图像。
框架
- 无后缀(默认):一般情况下,这是基于 PyTorch 框架的模型。
- jax:表示模型是使用 JAX 框架实现的。JAX 是一个用于高性能机器学习研究的库,允许使用 NumPy 代码并且具有自动微分和硬件加速能力。
- keras:表示模型是使用 Keras API 实现的。Keras 是一个高层神经网络 API,能够运行在 TensorFlow、CNTK、或 Theano 之上,主要用于快速原型设计。
这个系列的模型是预训练模型,不能直接拿来使用。
二、Mix checkpoints
经过多任务微调的通用模型。
适用于通用的自由文本提示推理。
直接拿来用的就是这个系列的模型,其它模型都需要先微调,并测试输出,然后再将其部署给最终用户。
可以看到的模型有下面这些:
google/paligemma-3b-mix-224
google/paligemma-3b-mix-448
google/paligemma-3b-mix-224-jax
google/paligemma-3b-mix-448-jax
google/paligemma-3b-mix-448-keras
google/paligemma-3b-mix-224-keras
参数区别同上。
三、FT checkpoints
针对特定学术数据集微调的专用模型。
https://www.kaggle.com/models/google/paligemma-ft
只在特定场景下效果好,通用性并不佳。
比如下面这些模型:
- paligemma-3b-ft-ai2d-224
- paligemma-3b-ft-ai2d-448
- paligemma-3b-ft-aokvqa-da-224
- paligemma-3b-ft-aokvqa-da-448
- paligemma-3b-ft-aokvqa-mc-224
- paligemma-3b-ft-aokvqa-mc-448
其中参数含义如下:
-
ft 表示这是一个微调模型(fine-tuned model),相对于预训练模型(pretrained model),它已经在特定任务上进行了微调。
-
每个模型名称末尾的数字(例如 224, 448, 896)表示输入图像的分辨率。
-
ai2d、aokvqa-mc 这些表示模型微调的任务或数据集。详细的看下面:
支持的模型微调数据集
AI2D
https://allenai.org/data/diagrams
说明图数据集,用于研究图表理解和相关问题解答。
- paligemma-3b-ft-ai2d-224
- paligemma-3b-ft-ai2d-448
A-OKVQA
https://allenai.org/project/a-okvqa/home
基于知识的视觉问答
MC 指 多选题 (Multiple-Choice)
DA 指 直接回答 (Direct-Answer)
- paligemma-3b-ft-aokvqa-da-224
- paligemma-3b-ft-aokvqa-da-448
- paligemma-3b-ft-aokvqa-mc-224
- paligemma-3b-ft-aokvqa-mc-448
COCO-35L
https://arxiv.org/pdf/2205.12522
多语言图像数据集
- paligemma-3b-ft-coco35l-224
- paligemma-3b-ft-coco35l-448
COCO captions
对象检测、分割和字幕数据集。
- paligemma-3b-ft-cococap-224
- paligemma-3b-ft-cococap-448
DocVQA
文档视觉问答
- paligemma-3b-ft-docvqa-224
- paligemma-3b-ft-docvqa-448
- paligemma-3b-ft-docvqa-896
GQA
图像场景问答
https://cs.stanford.edu/people/dorarad/gqa/about.html
- paligemma-3b-ft-gqa-224
- paligemma-3b-ft-gqa-448
Infographic VQA
视觉问答
https://openaccess.thecvf.com/content/WACV2022/papers/Mathew_InfographicVQA_WACV_2022_paper.pdf
- paligemma-3b-ft-infovqa-224
- paligemma-3b-ft-infovqa-448
- paligemma-3b-ft-infovqa-896
NLVR2
https://lil.nlp.cornell.edu/nlvr/
视觉推理
- paligemma-3b-ft-nlvr2-224
- paligemma-3b-ft-nlvr2-448
OCR-VQA
https://ocr-vqa.github.io/
读取图像中的文本进行视觉问答。
- paligemma-3b-ft-ocrvqa-224
- paligemma-3b-ft-ocrvqa-448
- paligemma-3b-ft-ocrvqa-896
OKVQA
https://okvqa.allenai.org/
知识视觉问答数据集
- paligemma-3b-ft-okvqa-224
- paligemma-3b-ft-okvqa-448
RefCOCO
https://arxiv.org/abs/1608.00272
用于引用表达理解和图像分割任务的数据集。它的全名是 Referring Expressions Comprehension。这个数据集的主要目的是评估模型在给定自然语言描述的情况下定位和识别图像中特定对象的能力。
- paligemma-3b-ft-refcoco-seg-224
- paligemma-3b-ft-refcoco-seg-448
- paligemma-3b-ft-refcoco-seg-896
RSVQA
Remote Sensing VQA - Low Resolution (RSVQA LR)
低分辨率遥感图像
https://zenodo.org/records/6344334
- paligemma-3b-ft-rsvqa-lr-224
- paligemma-3b-ft-rsvqa-lr-448
Remote Sensing VQA - High Resolution (RSVQA HR)
高分辨率遥感图像
https://zenodo.org/records/6344367
- paligemma-3b-ft-rsvqa-hr-224
- paligemma-3b-ft-rsvqa-hr-448
SciCap
https://arxiv.org/abs/2110.11624
为图表生成说明文字数据集
- paligemma-3b-ft-scicap-224
- paligemma-3b-ft-scicap-448
ScienceQA
收集自中小学科学课程,包含 21,208 个多模式多项选择科学问题。
- paligemma-3b-ft-science-qa-224
- paligemma-3b-ft-science-qa-448
Screen2words
https://arxiv.org/abs/2108.03353
移动用户界面数据集
- paligemma-3b-ft-screen2words-224
- paligemma-3b-ft-screen2words-448
SceneText VQA
https://arxiv.org/abs/1905.13648
场景文字视觉问答数据集
- paligemma-3b-ft-stvqa-224
- paligemma-3b-ft-stvqa-448
- paligemma-3b-ft-stvqa-896
TallyQA
https://arxiv.org/abs/1810.12440
复杂的视觉问题计数数据集
- paligemma-3b-ft-tallyqa-224
- paligemma-3b-ft-tallyqa-448
TextCaps
用于对图像字幕任务中的阅读理解进行基准测试的数据集。
- paligemma-3b-ft-textcaps-224
- paligemma-3b-ft-textcaps-448
TextVQA
基于图像中的文本对视觉推理进行基准测试的数据集。
- paligemma-3b-ft-textvqa-224
- paligemma-3b-ft-textvqa-448
- paligemma-3b-ft-textvqa-896
VizWiz VQA
https://vizwiz.org/tasks-and-datasets/vqa/
回答盲人提出的视觉问题数据集。
- paligemma-3b-ft-vizwizvqa-224
- paligemma-3b-ft-vizwizvqa-448
VQAv2
https://visualqa.org/index.html
有关图像的开放式问题,每张图片至少 3 个问题(平均 5.4 个问题),每个问题 3 个看似合理(但可能不正确)的答案。
- paligemma-3b-ft-vqav2-224
- paligemma-3b-ft-vqav2-448
Widget Captioning
移动端的用户界面元素
https://arxiv.org/abs/2010.04295
- paligemma-3b-ft-widgetcap-224
- paligemma-3b-ft-widgetcap-448
选择总结
这三种模型的适用场景如下:
-
PT预训练模型,不能直接用,可作为微调的基础。
-
Mix模型适用于多种任务,具有较强的通用性。
-
FT模型专注于特定任务,在这些任务上表现优异。