首页 > 其他分享 >Transformers--4-37-中文文档-四十四-

Transformers--4-37-中文文档-四十四-

时间:2024-06-22 14:58:57浏览次数:22  
标签:None Transformers sequence -- torch 37 length optional size

Transformers 4.37 中文文档(四十四)

原文:huggingface.co/docs/transformers

LayoutLMv3

原文链接:huggingface.co/docs/transformers/v4.37.2/en/model_doc/layoutlmv3

概述

LayoutLMv3 模型由 Yupan Huang、Tengchao Lv、Lei Cui、Yutong Lu、Furu Wei 在LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking中提出。LayoutLMv3 通过使用补丁嵌入(如 ViT 中的方式)简化了 LayoutLMv2,并在 3 个目标上对模型进行了预训练:掩码语言建模(MLM)、掩码图像建模(MIM)和单词-补丁对齐(WPA)。

论文摘要如下:

自监督预训练技术在文档 AI 领域取得了显著进展。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态上的双向表示,但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度。在本文中,我们提出了 LayoutLMv3,用于为文档 AI 预训练多模态 Transformers,统一文本和图像掩码。此外,LayoutLMv3 还使用了单词-补丁对齐目标进行预训练,通过预测文本单词的相应图像补丁是否被掩码来学习跨模态对齐。简单的统一架构和训练目标使 LayoutLMv3 成为文本中心和图像中心文档 AI 任务的通用预训练模型。实验结果表明,LayoutLMv3 不仅在文本中心任务(如表单理解、收据理解和文档视觉问答)中取得了最先进的性能,而且在图像中心任务(如文档图像分类和文档布局分析)中也取得了最先进的性能。

drawing LayoutLMv3 架构。摘自原始论文

该模型由nielsr贡献。该模型的 TensorFlow 版本由chriskootokeclre添加。原始代码可以在这里找到。

使用提示

  • 在数据处理方面,LayoutLMv3 与其前身 LayoutLMv2 相同,只是:

    • 图像需要调整大小并使用常规 RGB 格式的通道进行归一化。另一方面,LayoutLMv2 在内部对图像进行归一化,并期望通道以 BGR 格式提供。

    • 文本使用字节对编码(BPE)进行标记化,而不是 WordPiece。由于数据预处理中的这些差异,可以使用 LayoutLMv3Processor,它内部结合了 LayoutLMv3ImageProcessor(用于图像模态)和 LayoutLMv3Tokenizer/LayoutLMv3TokenizerFast(用于文本模态)来为模型准备所有数据。

  • 关于 LayoutLMv3Processor 的使用,我们参考其前身的使用指南。

资源

Hugging Face 官方和社区(

标签:None,Transformers,sequence,--,torch,37,length,optional,size
From: https://www.cnblogs.com/apachecn/p/18262304

相关文章

  • 自信和自卑(金鱼世界)
    alloverzyt转载自知乎好文章https://www.zhihu.com/question/47727045/answer/3491934777小时候很长一段岁月里,我都认为同龄同学是某种类似于金鱼的生物,他们呆滞又健忘,仿佛关闭了大脑在学习;而我想要在一群金鱼中脱颖而出简直易如反掌,也因为太过容易,所以会心生无趣。有一天我向......
  • java_if判断语句
    顺序结构JAVA的基本结构就是顺序结构,除非特别指明,否者就按照顺序一句一句执行。顺序结构是最简单的算法结构。语句与语句之间,框与框之间是按照从上到下的顺序进行的,它是由若干个依次执行的处理步骤组成的,他是任意一个算法都离不开的一种基本算法结构。packagecom.wen.s......
  • 美丽下标对的数目(Lc2748)——计数
    给你一个下标从 0 开始的整数数组 nums 。如果下标对 i、j 满足 0≤i<j<nums.length ,如果 nums[i] 的 第一个数字 和 nums[j] 的 最后一个数字 互质 ,则认为 nums[i] 和 nums[j] 是一组 美丽下标对 。返回 nums 中 美丽下标对 的总数目。对......
  • 发外链比较好的平台选择:策略与考量
    在当今的互联网营销环境中,外链(即外部链接)的重要性不言而喻。外链不仅可以增加网站的曝光度,还能在一定程度上提升网站在搜索引擎中的排名。然而,选择一个“发外链比较好的平台”并非易事,需要综合考虑多个因素。一、外链平台的选择原则在选择发外链的平台时,我们首先要明确目标受......
  • 基于Java中的SSM框架实现一汽租车共享平台系统项目【项目源码+论文说明】计算机毕业设
    摘要随着人们生活水平的不断提高,人们租车进行旅游的行为已成为大家的不二选择。汽车租赁服务被称为交通运输服务行新兴的服务行业,因为汽车租赁无须办理保险、无须年检维修、车型可随意更换等优点,以租车代替买车来控制企业成本,其实这种汽车管理方式在外企中是十分流行的方......
  • Transformers--4-37-中文文档-四十三-
    Transformers4.37中文文档(四十三)原文:huggingface.co/docs/transformersGIT原始文本:huggingface.co/docs/transformers/v4.37.2/en/model_doc/git概述GIT模型是由JianfengWang、ZhengyuanYang、XiaoweiHu、LinjieLi、KevinLin、ZheGan、ZichengLiu、CeLiu、L......
  • 复习提纲:《计算机网络(自顶向下方法)第七版》
    第一章计算机网络和因特网线路交换(Circuitswitching)中的时分复用(TimeDivisionMultiplexing(TDM))与频分复用(FrequencyDivisionMultiplexing(FDM))首先通过信令系统,在网络核心中为两者之间的通信分配一条独享的线路。由于两个交换节点之间的链路带宽较大,可以采用时分......
  • qt 简单实验 一个可以向右侧拖拽缩放的矩形
    1.概要目的是设置一个可以拖拽缩放的矩形,这里仅用右侧的一个边模拟这个过程。就是为了抓住核心,这个便解决了,其他的边也是一样的。而这个更能体现原理。2.代码2.1 resizablerectangle.h#ifndefRESIZABLERECTANGLE_H#defineRESIZABLERECTANGLE_H#include<QWidget>#in......
  • Transformers--4-37-中文文档-一-
    Transformers4.37中文文档(一)原文:huggingface.co/docs/transformers开始吧......
  • 基于springboot实现酒店客房管理系统项目【项目源码+论文说明】计算机毕业设计
    摘 要随着人们的物质水平的提高,旅游业和酒店业发展的速度越来越快。近年来,市面上酒店的数量和规模都在不断增加,如何提高酒店的管理效率和服务质量成为了一个重要的问题。伴随着信息技术的发展,基于互联网的酒店客房管理系统已经成为了酒店管理过程中的一个重要的手段。这......