Transformers 4.37 中文文档（四十三）

原文：huggingface.co/docs/transformers

GIT

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/git

概述

GIT 模型是由 Jianfeng Wang、Zhengyuan Yang、Xiaowei Hu、Linjie Li、Kevin Lin、Zhe Gan、Zicheng Liu、Ce Liu、Lijuan Wang 在《GIT: A Generative Image-to-text Transformer for Vision and Language》中提出的。GIT 是一种仅解码的 Transformer，利用 CLIP 的视觉编码器来除了文本外还对模型进行视觉输入的条件。该模型在图像字幕和视觉问答基准上取得了最先进的结果。

论文摘要如下：

在本文中，我们设计并训练了一个生成式图像文本 Transformer，GIT，以统一图像/视频字幕和问题回答等视觉-语言任务。虽然生成模型在预训练和微调之间提供了一致的网络架构，但现有工作通常包含复杂的结构（单/多模态编码器/解码器）并依赖于外部模块，如目标检测器/标记器和光学字符识别（OCR）。在 GIT 中，我们简化了架构，将其作为一个图像编码器和一个文本解码器在单一语言建模任务下。我们还扩大了预训练数据和模型规模以提高模型性能。没有花哨的东西，我们的 GIT 在 12 个具有挑战性的基准上建立了新的最先进技术，差距很大。例如，我们的模型首次在 TextCaps 上超越了人类表现（CIDEr 中的 138.2 vs. 125.5）。此外，我们提出了一种新的基于生成的图像分类和场景文本识别方案，在标准基准上取得了不错的表现。

GIT 架构。摘自原始论文。

该模型由nielsr贡献。原始代码可在此处找到。

使用提示

GIT 的实现方式与 GPT-2 非常相似，唯一的区别在于模型还受到pixel_values的影响。

资源

官方 Hugging Face 和社区（由

标签：None,Transformers,--,torch,37,ids,batch,hidden,size
From： https://www.cnblogs.com/apachecn/p/18262302

复习提纲：《计算机网络（自顶向下方法）第七版》
第一章计算机网络和因特网线路交换（Circuitswitching）中的时分复用（TimeDivisionMultiplexing(TDM)）与频分复用（FrequencyDivisionMultiplexing(FDM)）首先通过信令系统，在网络核心中为两者之间的通信分配一条独享的线路。由于两个交换节点之间的链路带宽较大，可以采用时分......
qt 简单实验一个可以向右侧拖拽缩放的矩形
1.概要目的是设置一个可以拖拽缩放的矩形，这里仅用右侧的一个边模拟这个过程。就是为了抓住核心，这个便解决了，其他的边也是一样的。而这个更能体现原理。2.代码2.1 resizablerectangle.h#ifndefRESIZABLERECTANGLE_H#defineRESIZABLERECTANGLE_H#include<QWidget>#in......
Transformers--4-37-中文文档-一-
Transformers4.37中文文档（一）原文：huggingface.co/docs/transformers开始吧......
基于springboot实现酒店客房管理系统项目【项目源码+论文说明】计算机毕业设计
摘要随着人们的物质水平的提高，旅游业和酒店业发展的速度越来越快。近年来，市面上酒店的数量和规模都在不断增加，如何提高酒店的管理效率和服务质量成为了一个重要的问题。伴随着信息技术的发展，基于互联网的酒店客房管理系统已经成为了酒店管理过程中的一个重要的手段。这......
Transformers--4-37-中文文档-五-
Transformers4.37中文文档（五）原文：huggingface.co/docs/transformers贡献贡献给......
Ubuntu系统下修改网卡IP地址
Ubuntu系统下修改网卡IP地址一、Ubuntu系统介绍1.1Ubuntu简介1.2Ubuntu网络配置方式二、本地环境介绍2.1本地环境规划2.2本次实践介绍三、检查本地环境3.1检查本地操作系统版本3.2检查系统内核版本四、配置网卡IP地址4.1备份网卡配置文件4.2查看当前IP地址4.3......
Transformers--4-37-中文文档-四十一-
Transformers4.37中文文档（四十一）原文：huggingface.co/docs/transformersAltCLIP原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/altclip概述AltCLIP模型是由陈忠志、刘光、张博文、叶福龙、杨庆红、吴乐德在AltCLIP:AlteringtheLanguageEncoder......
使用MPI 实现奇偶排序
使用MPI实现奇偶排序0号进程获得待排序序列并输出排序好的序列使用文件进行输入输出进行性能测试与对比代码奇偶排序头文件引入#include<iostream>#include<algorithm>#include<mpi.h>#include<fstream>#include<chrono>定义规模#defineN100000000......
车辆轨迹预测系列 (三)：nuScenes数据集详细介绍-1
车辆轨迹预测系列(三)：nuScenes数据集详细介绍-1文章目录车辆轨迹预测系列(三)：nuScenes数据集详细介绍-1一、数据集准备1、解压2、安装nuscenes-devkit3、介绍二、架构内容解释1、category类别2、attribute属性3、visibility可见性4、instance实例5、sensor传感......
20240622训练
文件名是abcd的逆天考试（算术（a）题面：给定一个长度为\(n\)的整数数列\(a_1,\dots,a_n\)，求有多少个有序对\((i,j)\)满足\(i<j\wedgea_ia_j<a_i+a_j\)题解：枚举\(j\)，有\(a_i(a_j-1)<a_j\)，对\(a_j\)分类讨论。当\(a_j>1\)，\(a_i<a_j/(a_j-1)\)，即\(a_i\le1\)。当\(a_j=1\)，\(0......

Transformers--4-37-中文文档-四十三-

Transformers 4.37 中文文档（四十三）

GIT

概述

使用提示

资源

相关文章

赞助商

阅读排行