常用的表格检测识别方法——表格内容识别方法

第三章常用的表格检测识别方法

3.3表格内容识别方法

表格识别的研究主要涉及两个方面，一方面是对单元格内的文本进行识别，这一步通常是在确定单元格区域后，利用较为稳定的光学字符识别方法（OCR）来实现，这一方面不是表格识别研究的重点，不在此展开；另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务，这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。

从文档中抽取关键信息已经被研究了几十年。在基于深度学习的方法出现之前，早期的工作主要依赖于已知模板中的一些规则或人为设计的特性，因此它们通常在没见过的模板上失败，在实际应用中不可适配。随着深度学习的发展，在信息抽取领域取得了重大进展。如上所述，大多数基于深度学习的方法将信息抽取定义为一个token分类问题。除了上述工作外，M. Carbonell还提出了一种基于CNN的方法，即从输入的文档图像中联合进行手写文本检测、转录和命名实体识别。除了这个范式之外，信息抽取也可以作为其他问题来表述。Majumder等人提出了一种利用先验知识提取关键领域值的方法。对于每个字段，首先选择一些候选词。然后，将每个字符的结构嵌入其上下文信息，计算该嵌入与目标域嵌入之间的余弦相似值作为相似度得分。

SPADE（SPAtial DEpendency parser）[W. Hwang等人]将信息抽取定义为一个空间依赖性解析问题。它构建了一个以文本段和字段作为图节点的依赖图，然后使用解码器从识别的图节点之间的连通性中提取字段值。BROS（BERT Relying On Spatiality）[Hong等人]通过提出了一种新的位置编码方法和一种基于区域掩蔽的预训练目标，进一步改进了SPADE。另一类方法[R. B. Palm等人,H. Guo等人,C. Sage等人]采用在其他NLP或图像理解任务中使用的序列到序列模型，直接预测关键字段的所有值，而不需要字符监督。Xiao等人构建了一个具有句子嵌入的二维文本嵌入图，并将该文本图和视觉特征与全卷积网络相结合，用于表格、章节标题、标题、段落等图像区域的像素级分割。Raphael等人提出了一种多模态神经模型，通过将一个二维文本嵌入到CNN模型的中间层，以便在历史报纸上进行更细粒度的分割任务。

还有一些研究人员认为，文档的图像特征非常有用，因为图像特征是字体、字形、颜色等的混合表示。由于信息抽取任务涉及文档图像，一些研究人员将其视为一项纯粹的计算机视觉任务。这些方法从光学字符识别（OCR）的角度解决了信息抽取任务。对于每一种类型的实体，这些方法设计了相应的解码器，负责识别文本内容并确定其类别。由于缺乏语义特征，这种方法在面对复杂的布局时不能很好地工作。

研究人员从不同的角度探讨了信息抽取任务。Hwang等人和Jiang等人基于坐标信息序列化文本片段，并将坐标输入到序列标记器。然而，简单地将该位置视为某种特征，可能不能充分利用文本之间的视觉关系。为了充分利用语义特征和位置信息，Chargrid [Katti等人]将字符映射到一个热向量上，从而填充文档图像上的字符区域。将带有语义信息的图像输入CNN进行检测，并进行语义分割，提取实体。后来的BERTgrid [Denk和Reisswig等人]采用了类似的方法，但使用了不同的字符嵌入方法。然而，它通过使用通道特性来表示语义，引入了大量的计算，特别是具有大类别的语言。

因此，以语义特征作为节点特征，以文本片段的空间位置特征作为边缘特征，构建全局文档图通常是一种更好的解决方案。另外几种方法[Qian等人，Liu等人，Yu等人，Gal等人，Cheng等人]使用GNN对文档的布局信息进行建模。通过节点之间传递的消息，这些模型可以学习每个文本的总体布局和分布，这有助于后续的实体提取。例如，Gui等人提出了一种基于词汇的图神经网络，将中文NER（命名实体识别）视为节点分类任务。此外，GraphIE [Qian等人]和Liu等人提出的模型通过GNN提取视觉特征，增强BiLSTM-CRF模型的输入，被证明是有效的。与全连接或手工制作的图不同，PICK [Yu等人]通过图学习预测了节点之间的连接，这也提高了结果。这些方法使用GNN编码文本嵌入，给定视觉上丰富的上下文，以隐式地学习键-值关系。

表格信息抽取方面，国外的研究者在基于序列的方法上比较突出，提出了LAMBERT，TILT等一批优秀的模型，这与国外长期积累的语言模型发展经验有关，在基于二维特征网格的方法上国外也有较早的探索，提出了Chargrid和BERTgrid等经典模型，而对于基于图的方法研究较少；而国内的研究者在基于图和基于二维特征网格的方法上有着世界领先的水平，PICK，MatchVIE和ViBERTGrid等方法在各种信息抽取任务上名列前茅。总的来说，近年来国内外研究者对表格内容识别都非常关注，这一领域的方法也呈现出多元化发展的态势。