【论文笔记】LayoutLMv2：将视觉信息加入到预训练阶段的跨模态文档预训练模型

时间：2022-09-07 14:34:37浏览次数：68

标签：模态训练 text token 文档 LayoutLMv2 embedding 所示

概述

LayoutLMv2是对LayoutLM的改进，主要有以下几点区别：

将视觉信息加入到了预训练阶段，而不是LayouLM中的微调阶段
删除了MDC，添加了text-image alignment和text-imgae matching两个预训练任务
将spatial-aware的自注意力机制整合到了transformer中

模型

模型的整体结构如图1所示：

图1 LayoutLMv2总体结构

Embedding

由于大部分和LayoutLM一样，就不多介绍了，这里简单说下不一样的地方。首先是加入了visual embedding，对于token的embedding，先将图片缩放到224x224，输入到CNN中，大小变为WxH，然后将其flatten，并通过全连接层将维度变换到和其它embedding层一样；对于1D position embedding，和text embedding layer共享；对于segment embedding使用符号[C]（text的segment embedding用的是[A]和[B]）。如图2所示：

图2 Visual Embedding组成然后是layout embedding（也就是2d position embedding），v2在v1的基础之上把bbox的宽和高也加入了进去，如图3所示：

图3 Layout Embedding组成另外由于设置$box_{pad}$=(0,0,0,0,0,0)，用于对齐[CLS]、[SEP]和[PAD]。

Spatial-Aware Self-Attention

为了获得局部不变性，LayoutLMv2使用了这个机制，即在原始attention权重矩阵下加上1维和2维的偏置，如图4所示：

图4 Spatial-Aware Self-Attention

预训练

预训练有三个任务：Masked Visual-Language Modeling、Text-Image Alignment、Text-Image Matching。

Masked Visual-Language Modeling

和v1一样，预测遮蔽（mask）的text token。对于被遮蔽的text token，对应的图片区域也要遮蔽掉，防止信息泄露。

Text-Image Alignment

这是一个细粒度的跨模态对齐任务。图片上的一些token lines会被覆盖（cover）掉，然后使用对应的text token预测图片中的token line是否被覆盖。这样就能够将视觉和文本信息在预训练阶段结合起来。在计算TIA Loss的时候，被遮蔽（mask）的text token不会参与计算。

Text-Image Matching

这是一个粗粒度的跨模态对齐任务，用于预测该文本在该文档里（还是在其它文档里）。预训练时会构造负样本（替换文档或丢弃文档），正负样本使用同样的覆盖和遮蔽操作。最后通过[CLS]预测是否匹配，不匹配的话text token全部为“已覆盖（Covered）”

实验

实体提取的F1分数如图5所示：

图5 实体提取F1分数可以看到，LayoutLMv2达到了SOTA的效果。文档分类的准确率如图6所示：

图6 文档分类准确率可以看到，LayoutLMv2同样取得了最优的结果。文档VOA的结果如图7所示：

图7 文档VOA的结果可以看到，LayoutLMv2仍然是最好的，同样可以看出LayoutLM不适合VQA任务，也说明了LayoutLMv2适用于更多的下游任务。消融实验如图8所示：

图8 消融实验消融实验是在VQA任务上做的。可以看到，论文提出的attention，TIA，TIM对于性能的提升都有帮助。另外和v1一样，选择不同的初始化方法对于结果也有很大的影响，这里选择UniLMv2初始化到达了最好的效果。

总结

LayoutLMv2最大的贡献在于将视觉信息也加入到了预训练阶段中，并通过TIA和TIM实现文本和视觉两个模态的信息联合。

标签：模态,训练,text,token,文档,LayoutLMv2,embedding,所示
From： https://www.cnblogs.com/SpicyWonton/p/16665103.html

【ModelScope】5分钟让你在大火的多模态领域权威榜单VQA上超越人类
简介： ModelScope上开源了达摩院众多业界最强多模态模型，其中就有首超人类的多模态视觉问答模型mPLUG，小编从页面体验（一探）、开发体验（二探）、开放测试（三探）来探究多模态预训练模......
"蔚来杯"2022牛客暑期多校训练营7
A.FloorTilesinaPark给定$W\timesH$的矩阵，问将其分为$k(k\leqslant5)$个子矩阵的方案数。两个方案不同，当且仅当其切割方式不同手玩，画出所有$k\leqslant5$......
【论文笔记】LayoutLM：首次结合文本和版式信息的文档预训练模型
概述LayoutLM是一个基于Bert，结合了文本和版式信息的文档预训练模型，在多个下游任务中都达到了当时SOTA的结果。模型模型的总体结构如图1所示：图1LayoutLM总体结构La......
"蔚来杯"2022牛客暑期多校训练营9
A CarShow题意：给定一个数组，请找到有多个区间[L,R]满足1到m的数都出现过。分析：直接双指针就好#include<bits/stdc++.h>usingnamespacestd;longlongn,m,s[......
关于yolov5官方项目训练的模型加载时报no module named models..Model/common
出现该报错的原因是：训练保存的模型里包含了网络结构，结构的model类直接包含了路径地址model.yolo.Model解决办法就是重新在官方项目代码中加载模型，并再次只保存其中的模型......
QLUACM2022年上学期训练赛-3
QLUACM2022年上学期训练赛-3（不强制）（进不去的点这里）比赛来自2019ICPC南京 ......
"蔚来杯"2022牛客暑期多校训练营7
CConstructiveProblemsNeverDie题意：给你一个数组A,你需要构造一个排列P，使得P[i]≠A[i]分析：考虑构造不出来的情况如果所有A[i]都相同一定不成立先构造P[i]=i......
2022广西师范大学暑期训练赛
C猪脑过载思路：我是把第一个位置放1，最后一个位置放1，中间放0的，其实也可以是第一个位置放2，其他位置放0。代码：intmain(){intT=read();while(T--){......
"蔚来杯"2022牛客暑期多校训练营6
A.Array给定$\geqslant2$的整数$a_1,a_2,...,a_n$，满足$\sum\limits_{i=1}^n\frac{1}{a_i}\leqslant\frac{1}{2}$，构造一个循环数列，使得其任意长度为$a_i$的子区......
暑假代码训练项目增删改查（一）
packagecom.atguigu.p2.bean;/***@DescriptionCustomer为实体对象，用来封装客户信息*@author高槐玉*@date2022年8月29日晚20：45**/publicclassCust......