Pre
title: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking
accepted: ACM MM 2022
paper: https://arxiv.org/abs/2204.08387
code: https://github.com/microsoft/unilm/tree/master/layoutlmv3
关键词:多模态预训练,文档理解,Document AI
阅读理由:看里面的WPA预训练任务
Target
大多数多模态预训练模型都适用MLM预训练目标,但对于图片模态的预训练不标则不尽相同,这种差异增加了多模态表示学习的难度,为此提出了LayoutLMv3,有统一的文本和图片masking。
Idea
三个预训练任务:MLM,MIM,WPA
LayoutLMv3 is a pre-trained multimodal Transformer for Document AI with unified text and image masking objectives.
Background
图1 文档AI任务的例子
Method(Model)
Overview
图2 跟现有方法在image embedding上的区别
不同于先前的文档理解多模态模型,它们大都需要一个CNN或者Faster-RCNN抽取图片上的视觉信息。作者从VIT收到启发,直接采用VIT的预处理策略:图片resize->patch->线性映射,组成 \(shape=[hw/patch\_size^2, d]\) 的tensor,再加上1d position embedding,就构成了视觉特征。这样做降低了模型参数量、移除了相对较复杂的预处理流程。
而文本特征方面,先用OCR方法去识别出文本内容跟对应的2D位置信息(bounding box 坐标),再采用预训练好的RoBERTa生成每个token的 text embedding。
图3 LayoutLMv3的预训练目标架构。“Seg” 表示segment级的位置 “[CLS]”, “[MASK]”, “[SEP]”, “[SPE]” 都是特殊 tokens.
Pre-training Objectives
- Masked Language Modeling(MLM):每次mask掉30%的token,同时mask掉对应视觉信息。不再是随机、孤立的mask掉某个token,而是一次性mask一定长度的tokens。长度从泊松分布(λ=3)中抽样确定。从视觉上下文token( \(X^{M'}\) )以及文本上下文token( \(Y^{L'}\) )来预测这些被mask掉的token。
- Masked Image Modeling(MIM):BEiT的策略,将patch通过image tokenizer转化为离散的token,随机mask掉约40%的patch,再对这些masked patch进行预测。
- Word-Patch Alignment(WPA):对文档而言,每个文本单词都跟一个图片块相关,前两个预训练任务分别随机去mask文本跟图片token,不存在模态间的显式alignment学习。因此这个WPA希望学到二者的细粒度对齐。对于未被mask的文本token,根据它对应的图片patch是否被mask,给它分配 unalign/align 标签,然后用交叉熵来预测一个单词对应的图片块是否被mask。
跟其他模型的对比结果略。
关于WPA:需要忽略已被mask的文本token,防止模型从masked text以及image patch之间学到无用信息。相当于要求模型综合文本、图片的信息,去判断该文本token对应的图片patch是否被mask,从而让模型学会二者的对应关系。
表3 image embeddings 跟 预训练目标的消融研究
图4 在PubLayNet数据集上进行微调的损失收敛曲线
看起来WPA确实有效,但作用有限,似乎不是很需要这两个模态的对齐?