[论文速览] LayoutLMv3@ Pre-training for Document AI with Unified Text and Image Masking

时间：2023-03-05 16:35:56浏览次数：67

标签：Pre Unified training 模态 mask patch token 文本 WPA

Pre

title: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
accepted: ACM MM 2022
paper: https://arxiv.org/abs/2204.08387
code: https://github.com/microsoft/unilm/tree/master/layoutlmv3

关键词：多模态预训练，文档理解，Document AI
阅读理由：看里面的WPA预训练任务

Target

大多数多模态预训练模型都适用MLM预训练目标，但对于图片模态的预训练不标则不尽相同，这种差异增加了多模态表示学习的难度，为此提出了LayoutLMv3，有统一的文本和图片masking。

Idea

三个预训练任务：MLM，MIM，WPA
LayoutLMv3 is a pre-trained multimodal Transformer for Document AI with unified text and image masking objectives.

Background

图1 文档AI任务的例子

Method（Model）

Overview

图2 跟现有方法在image embedding上的区别

不同于先前的文档理解多模态模型，它们大都需要一个CNN或者Faster-RCNN抽取图片上的视觉信息。作者从VIT收到启发，直接采用VIT的预处理策略：图片resize->patch->线性映射，组成 $shape=[hw/patch\_size^2, d]$ 的tensor，再加上1d position embedding，就构成了视觉特征。这样做降低了模型参数量、移除了相对较复杂的预处理流程。

而文本特征方面，先用OCR方法去识别出文本内容跟对应的2D位置信息（bounding box 坐标），再采用预训练好的RoBERTa生成每个token的 text embedding。

图3 LayoutLMv3的预训练目标架构。“Seg” 表示segment级的位置 “[CLS]”, “[MASK]”, “[SEP]”, “[SPE]” 都是特殊 tokens.

Pre-training Objectives

Masked Language Modeling(MLM)：每次mask掉30%的token，同时mask掉对应视觉信息。不再是随机、孤立的mask掉某个token，而是一次性mask一定长度的tokens。长度从泊松分布（λ=3）中抽样确定。从视觉上下文token（ $X^{M'}$ ）以及文本上下文token（ $Y^{L'}$ ）来预测这些被mask掉的token。
Masked Image Modeling(MIM)：BEiT的策略，将patch通过image tokenizer转化为离散的token，随机mask掉约40%的patch，再对这些masked patch进行预测。
Word-Patch Alignment(WPA)：对文档而言，每个文本单词都跟一个图片块相关，前两个预训练任务分别随机去mask文本跟图片token，不存在模态间的显式alignment学习。因此这个WPA希望学到二者的细粒度对齐。对于未被mask的文本token，根据它对应的图片patch是否被mask，给它分配 unalign/align 标签，然后用交叉熵来预测一个单词对应的图片块是否被mask。
跟其他模型的对比结果略。

关于WPA：需要忽略已被mask的文本token，防止模型从masked text以及image patch之间学到无用信息。相当于要求模型综合文本、图片的信息，去判断该文本token对应的图片patch是否被mask，从而让模型学会二者的对应关系。

表3 image embeddings 跟预训练目标的消融研究

图4 在PubLayNet数据集上进行微调的损失收敛曲线

看起来WPA确实有效，但作用有限，似乎不是很需要这两个模态的对齐？

Experiment

Dataset

Metrics

Results

Conclusion

Critique

Unknown

标签：Pre,Unified,training,模态,mask,patch,token,文本,WPA
From： https://www.cnblogs.com/Stareven233/p/17159388.html

微服务 - 搭建k8s(minikube)与简单wordPress实战
Kubernetes的基本架构Kubernetes的基本架构，由Matser和Node子节点组成，使用kubectl进行通信，Master里的组件有哪些:Master里有4个组件，分别是apiserver、etcd、schedu......
Fetch Post Get XMLHttpRequest
Fetch请求示例：consturl="http://example.com/";constoptions={method:"POST",headers:{Accept:"application/json","Content-Type":"applica......
Study for Go ! Chapter two - Expression
StudyforGo!Chaptertwo-Expression1.Keyword Golang仅有25个保留关键字，体现了golang语法规则的简洁性保留关键字不能用作常量、变量、函数名......
iis6 500.19 dynamiccompressonModule 处理程序 staticfile FastCGI
看详细中的处理程序类型是不是staticfile或FastCGI如果不是请出门左转百度。如果是则可以尝试一下方法：staticfile可以尝试一下方法：打开网站的根目录的web.confi文件在配......
Vue press 支持图片放大功能的代码分享
介绍VuePress由两部分组成：一个以Vue驱动的主题系统的简约静态网站生成工具，和一个为编写技术文档而优化的默认主题。它是为了支持Vue子项目的文档需求而创建的。由V......
【android】Android SharedPreferences使用详解
【参考连接】AndroidSharedPreferences使用详解androidSharedPreferences实现用户的注册和保存账号密码......
[20230303]学习UNIFIED audit--定期清理AUDSYS.AUD$UNIFIED.txt
[20230303]学习UNIFIEDaudit--定期清理AUDSYS.AUD$UNIFIED.txt--//前面的学习包括手工操作整理AUDSYS.AUD$UNIFIED以及移动AUDSYS.AUD$UNIFIED到别的表空间.--//下面学习......
常用的Prestosql
一、Prestosql的函数，和sql（hivesql）基本一样，注意一下一些小细节即可1.中文列名要用双引号，而不是反引号2.cast转换时，字符串要CAST(xASvarchar)，而不是string3.Presto......
[Typescript] Create a Type-Safe Request Handler with Zod and Express
importexpress,{RequestHandler}from'express';import{it}from'vitest';import{z,ZodError}from'zod';import{Equal,Expect}from'../helpers/ty......
c# DevExpress GridView实现鼠标移动到单元格文字内容上后变手形,并触发RowCellClick
我们都知道,在.net自带的Winform控件DataGridView控件有一个CellContentClick事件,该事件是在点击单元格内容的时候触发,很好用那么在DevExpress中的GridView中是否有类......