Transformers 4.37 中文文档(四十三)
GIT
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/git
概述
GIT 模型是由 Jianfeng Wang、Zhengyuan Yang、Xiaowei Hu、Linjie Li、Kevin Lin、Zhe Gan、Zicheng Liu、Ce Liu、Lijuan Wang 在《GIT: A Generative Image-to-text Transformer for Vision and Language》中提出的。GIT 是一种仅解码的 Transformer,利用 CLIP 的视觉编码器来除了文本外还对模型进行视觉输入的条件。该模型在图像字幕和视觉问答基准上取得了最先进的结果。
论文摘要如下:
在本文中,我们设计并训练了一个生成式图像文本 Transformer,GIT,以统一图像/视频字幕和问题回答等视觉-语言任务。虽然生成模型在预训练和微调之间提供了一致的网络架构,但现有工作通常包含复杂的结构(单/多模态编码器/解码器)并依赖于外部模块,如目标检测器/标记器和光学字符识别(OCR)。在 GIT 中,我们简化了架构,将其作为一个图像编码器和一个文本解码器在单一语言建模任务下。我们还扩大了预训练数据和模型规模以提高模型性能。没有花哨的东西,我们的 GIT 在 12 个具有挑战性的基准上建立了新的最先进技术,差距很大。例如,我们的模型首次在 TextCaps 上超越了人类表现(CIDEr 中的 138.2 vs. 125.5)。此外,我们提出了一种新的基于生成的图像分类和场景文本识别方案,在标准基准上取得了不错的表现。
GIT 架构。摘自原始论文。
使用提示
- GIT 的实现方式与 GPT-2 非常相似,唯一的区别在于模型还受到
pixel_values
的影响。
资源
官方 Hugging Face 和社区(由
标签:None,Transformers,--,torch,37,ids,batch,hidden,size From: https://www.cnblogs.com/apachecn/p/18262302