首页 > 其他分享 >深度学习助力版面分析技术,图像“还原”有方

深度学习助力版面分析技术,图像“还原”有方

时间:2023-06-20 22:00:44浏览次数:34  
标签:有方 助力 信息 神经网络 文档 图像 版面 文本


1. 前言背景


近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与文档还原技术实现上的新突破。


一系列的技术突破成功的提高了图像识别的准确率。其介绍成功地引起了我对文档图像识别与文档还原技术的浓厚兴趣,因为我经常为OCR识别出现的错字和漏字问题所困扰。下面我了解到的信息做一个简单的介绍。

2. 简单的了解下图像识别过程

首先,让我们先来了解下文档图像识别以及文档还原的过程。一般而言,文档图像识别以及文档还原的有如下几大步骤。

深度学习助力版面分析技术,图像“还原”有方_图像识别


  1. 图像预处理:在进行文档图像处理之前,需要对原始图像进行预处理,以提高后续图像处理的效率和准确性。这些预处理包括以下几个方面:

形变矫正:针对图像的形变矫正,合合信息采用基于位移场网络学习方法的系统构架,可对形变文档进行智能矫正,包括弯曲矫正与透视矫正,同时智能定位文档边缘,切除多余背景。

阴影去除:通过合合信息阴影处理技术,可以智能消除图像中的阴影,提升材料规范性与后续的识别准确性。

摩尔纹去除:合合信息采用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的干扰因素进行对应处理,可去除所有样式的摩尔纹,同时保证图像信息完整、颜色不失真。

反光去除:合合信息采用基于位置感知的深度学习的单图像反光/反射消除方法。使用循环全对场变换(RAFT)来学习位移场,从而可以自动地从源图像到目标图像进行运动估计和位移场估计。

清晰度提升:通过增强图像亮度,对比度等参数,使图像更加清晰。

图像增强锐化:通过微分法和高频加重滤波法对图像进行增强锐化

  1. 版面分析:版面分析就是将对输入的图像的文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系。版面分析是文档图像还原的核心,因为普通的OCR技术只能提取图像中文字,并不能提取图像中的图片,印章等其他元素,以及各个元素之间的位置关系。
  2. 文档还原:文档还原就是依据版面分析步骤中识别到的各个元素以及元素之间的顺序信息。通过基于transformer的排版布局引擎进行排版分析,从而使图像很好"还原"成一个可编辑的Word或Excel文件。

下面我们就详细介绍下版面分析技术。

3. 版面分析难在哪里?

介绍版面分析技术之前首先我们需要搞清楚何为版面分析。

文档图像中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码、公式等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。


版面分析主要包括物理版面分析(区域分割、分类,文本检测与定位,文本行分割等),手写及印刷区分,表格分析(单元格提取与关系分析);逻辑版面分析(区域语义分类、阅读顺序),以及签名、图标、印章等版面元素的提取等。前者主要解决区域分割问题,关注的是文档图像的物理布局,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。

深度学习助力版面分析技术,图像“还原”有方_图像识别_02


深度学习助力版面分析技术,图像“还原”有方_卷积神经网络_03


其中阅读顺序主要用于文本行分割和文本行识别等处理。一般来说,文本行分割可以通过以下步骤实现:

  1. 段落识别:首先使用段落识别技术将文档图像中的文本段落进行识别和分割。
  2. 行连通性:将文本行连通性,将其与相邻的文本行合并成一个文本块。
  3. 文本行方向:判断文本块的方向(从左到右或从右到左),以便于进行正确的文本行分割。
  4. 文本行分割:根据文本块的方向和行间距等信息,将文本块分割成单个的文本行。


传统的版面分析方法在进行版面布局分析和表格处理时会明显受制于版式差异,在应对不同场景下的文档图片时泛化效果存在缺陷,难以以一个通用的模型来处理各类版式的复杂文档。这就会导致文件材料在被拍照、扫描成电子文档的过程中可能出现漏字、错位的现象,从而使得图片转Word、图片转Excel等“可编辑”性的需求无法被满足。

4. 合合信息如何突破?

合合信息将全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法模型引入到文档版面分析中,结合文本区域的几何坐标、视觉特征、文本语义等多种模态信息对文本阅读顺序进行预测,显著提升分类结果。

首先,让我们简单的了解下这两种算法。

全卷积神经网络(FCN)是一种将卷积神经网络(CNN)用于图像分类任务时常用的技术。FCN将CNN末尾的全连接层转化成了卷积层,使得模型可以输出每个像素点的分类结果。在文档版面分析中,FCN可以用于将文档图像中的不同部分分割成不同的区域,例如文本、图片、表格等,从而更好地理解文档图像的结构和内容。


图神经网络(GNN)是一种用于处理图数据的神经网络。它可以处理图形数据中的节点和边之间的关系。在文档版面分析中,GNN可以用于处理文档中的节点和边之间的关系,例如文档中的段落之间的关系、图片之间的关系等。通过使用GNN,可以更好地理解文档的结构和内容,并提取出有用的信息。


如下图展示了合合信息文档还原系统的架构图。

深度学习助力版面分析技术,图像“还原”有方_图像识别_04


从上面的架构图中可以看出文档还原系统核心部分主要就两个部分:

  1. 在接收到文档图像之后,系统通过版面元素检测和识别技术获取图像中的版面信息,这些版面信息包括段落,表格,印章,图片等信息,通过文字检测和识别技术获取图像中的文本信息和坐标信息。具体来说,使用全卷积神经网络(FCN)将文档中的不同部分分割成不同的区域,然后使用图神经网络(GNN)处理这些区域之间的关系,从而更好地理解文档的结构和内容。此外,还可以使用全卷积神经网络(FCN)和图神经网络(GNN)来识别文档中的实体、关系等信息,从而更好地理解文档的内容。
  2. 接着系统通过基于transformer的排版布局引擎输出文档排版属性,从而将图像“还原”成一个可编辑的Word或Excel文件。

下面就对每个部分所涉及到的相关技术点做一个简要的介绍和分析。

4.1 版面元素检测与识别

合合信息版面分析技术通过引入全卷积神经网络(FCN)和图神经网络(GNN)两种深度学习的算法解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格、印章等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、字号和排版方式,从而可以从各类版式复杂的文档图像中精准获取其所有信息。

那么,这两种算法模型如何能够提升文档图像检测与识别呢?这是因为

  1. 全卷积神经网络(FCN)在卷积神经网络(CNN)的基础上,将卷积神经网络的全连接层转换为卷积层,从而允许输入不同大小的图像。这种方法在文档图像识别中非常有用,因为文档图像的大小和形状各异。通过使用 FCN,我们可以将任意大小的图像输入到模型中进行识别,而不需要对图像进行缩放或裁剪。这提高了模型的准确性和鲁棒性。
  2. 图神经网络(GNN) 可以将图像转换为图形结构,并使用 GNN 对其进行识别。GNN 可以通过学习图形结构的特征来提高识别准确率。此外,GNN 还可以利用图形结构的全局信息,例如节点之间的连接和距离,来提高识别准确率。

其过程如下图所示:

深度学习助力版面分析技术,图像“还原”有方_图像识别_05


其详细步骤如下图所示:

深度学习助力版面分析技术,图像“还原”有方_卷积神经网络_06



合合信息提出Layout Engine作为框架的视觉检测模块,首先进行卷积神经网络的区域性搜索,检测出文档中的各个元素,这些元素包括文本、印章、页眉、页脚、无线表、骑缝章、列表、水印、二维码、条形码、公式、图像、表格等。 该模块通过下采样、上采样以及attention模块获取图像多尺度、空间以及通道相关的特征。最后采用point-wise的方式获取文档元素的heatmap区域,可以有效的提取各种形状以及各类信息的元素区域。

4.2 版面排版引擎的算法原理

通过前面版面元素检测和识别获取到文本信息,坐标信息以及其他版面信息之后,接着就交给基于transformer的排版布局引擎,该引擎的算法原理如下图所示:

深度学习助力版面分析技术,图像“还原”有方_神经网络_07


从上图中可以看出该引擎接收到相关的文字信息和版面信息之后,首先

文档图像中通过字符嵌入(Character embedding),文本行嵌入(Textline embedding),段落嵌入(Paragraph embedding),关系嵌入(Relation embedding)抽出四部分嵌入向量。

字符嵌入(Character embedding):将每个字符表示为一个向量的过程,通过将字符映射到一个连续的向量空间中,使得具有相似语义或上下文关系的字符在向量空间中更加接近。

文本行嵌入(Textline embedding):将整个文本行表示为一个向量的过程。通过将文本行中的所有字符的嵌入向量进行聚合,可以捕捉到整个文本行的语义和上下文信息。

段落嵌入(Paragraph embedding):将整个段落表示为一个向量的过程。通过将段落中的句子或文本行的嵌入向量进行聚合,可以捕捉到段落的整体语义和上下文信息。

关系嵌入(Relation embedding):将文本中不同元素之间的关系表示为向量的过程。这些元素可以是词语、句子、文本行或段落等。通过学习元素之间的关系嵌入,可以捕捉到它们之间的语义关联性和相互作用。这对于解决文本关系分析、语义关系建模和知识图谱构建等任务非常有用。


接着,将这些嵌入向量送入Transformer中。Transformer是一种基于自注意力机制的深度学习模型,用于序列到序列的任务。它应用到文本排版,就是将前面输入的嵌入向量的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作。最终输出的结果将用于机器学习方法进行分析,从而达到还原文档段落属性的效果。

深度学习助力版面分析技术,图像“还原”有方_图像识别_08


5. 文档还原效果好

介绍完了合合信息在版面分析与还原技术上的新突破之后,接着我们看下使用扫描全能王进行文档还原的效果。如下图是一个表格图像,其内容被完整的识别出来了。

深度学习助力版面分析技术,图像“还原”有方_神经网络_09



6. 总结

合合信息通过基于深度学习的方法解决版面分割、区域间的逻辑关系处理等方面的难题,可以将文档图像切分成不同类型的内容(文本、表格、印章、公式等)的区域,并并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息,让电子文档电获得“所见即所得”的处理效果。

感兴趣的小伙伴可以下载扫描全能王抢先体验一波。

深度学习助力版面分析技术,图像“还原”有方_卷积神经网络_10







标签:有方,助力,信息,神经网络,文档,图像,版面,文本
From: https://blog.51cto.com/u_15365215/6525522

相关文章

  • 空间维特受邀参加工业互联网与矿山行业融合应用论坛,携手运营商共同助力矿山智能化建设
    2023年6月15日中国电信举办工业互联网与矿山行业融合应用主题论坛,围绕工业互联网助力矿山行业安全高质量发展主题,邀请行业权威专家和企业代表,洞察行业最新发展趋势、总结先进技术和应用探索经验。北京空间维特科技发展有限公司(下文简称空间维特)受邀参加本次论坛及成果展示和白皮书......
  • 无线风力报警仪助力智慧工地塔吊门吊履带吊
    无线风力报警仪产品概述无线风力报警仪是由智能测控报警仪、无线风速风向传感器和太阳能供电盒组成,可观测大气中的瞬时风速,具有风速报警设定和报警输出控制功能;风力报警仪采用无线信号传输、显示屏输出,风速显示采用高亮LED数码管显示,观察距离远,并适合于光线较暗和夜间使用;该报警仪......
  • 清微智能TX5368A与飞桨完成Ⅱ级兼容性测试,助力全行业智能化升级
    近日,清微智能的高性能视觉芯片TX5368A与飞桨完成Ⅱ级兼容性测试(基于Paddle2ONNX工具)。测试结果显示,双方兼容性表现良好,整体运行稳定。这是清微智能加入“硬件生态共创计划”后取得的又一阶段性成果。产品兼容性证明本次Ⅱ级兼容性测试完成了对计算机视觉技术领域总计10个模型的验证......
  • 基于ChatGPT函数调用来实现C#本地函数逻辑链式调用助力大模型落地
    6月13日OpenAI官网突然发布了重磅的ChatGPT更新,我相信大家都看到了,除了调用降本和增加更长的上下文版本外,开发者们最关心的应该还是新的函数调用能力。通过这项能力模型在需要的时候可以调用函数并生成对应的JSON对象作为输出。这使开发人员能更准确地从模型获取结......
  • 武汉星起航推出跨境电商新手孵化服务,助力卖家快速拓展国际市场
    武汉星起航电子商务有限公司是国内跨境电商领域备受瞩目的企业,凭借其专业化、创新化的经营理念和卓越的实力,成为行业内的佼佼者。作为国内首批进入跨境电商市场的企业之一,星起航在亚马逊跨境电商市场上取得了令人瞩目的成就,赢得了广大客户的信任和赞誉。星起航深知新手卖家进入跨境......
  • 洞元科技引领行业数智化转型,创新的解决方案助力企业提升核心竞争力
    近日,洞元科技再次在数智化行业中崭露头角,凭借其创新的行业领先的数智化解决方案,成功帮助多家企业实现数字化转型,提升核心竞争力。 洞元科技创始人兼CEO张怀瑞表示:洞元科技作为一家专注科技创新,产业赋能的公司。公司主要提供行业领先的智慧数字化(数智化)解决方案,同时也为企业提......
  • 跨境电商迎来新机遇,武汉星起航助力新手卖家抢占市场先机
        随着全球贸易的日益发展和互联网的普及,跨境电商行业正迎来前所未有的发展机遇。然而,对于新手卖家来说,进军这个领域往往伴随着一定的难度和压力。幸运的是,武汉星起航的出现为他们提供了强有力的支持,助力他们抢占跨境电商市场的先机。武汉星起航凭借其专业运营团队多年的......
  • 武汉星起航:助力跨境电商行业腾飞,打造亚马逊一站式孵化平台
    随着全球贸易的不断发展,跨境电商成为了连接全球市场的重要纽带。为了激发这一领域的潜力,中国政府积极出台了一系列扶持政策,为跨境电商卖家提供了广阔的发展空间。在这样的背景下,武汉星起航应运而生,成为了跨境电商行业中的一颗耀眼新星。在这个充满机遇的行业中,武汉星起航于2020年正......
  • 武汉星起航:亚马逊父亲节促销旺季,多项活动助力卖家快速爆单
    随着父亲节的临近,亚马逊平台迎来了一年一度的父亲节促销旺季。武汉星起航了解到为了助力卖家们在这个特殊时期快速爆单,亚马逊推出了一系列激励活动和创新措施,引发了消费者的购物狂潮。亚马逊作为全球领先的电商平台,一直致力于为卖家提供更多的销售机会和增加销售额的途径。在父亲节......
  • 广州医药管理系统开发-助力医药企业提升门店运营效率
    在广州这座繁荣的城市,医药行业一直是重要的经济支柱。随着医药行业的不断发展和市场竞争的加剧,广州医药企业需要寻找提高门店运营效率的方法,如:如何提升门店运营效率、如何有效地管理药品库存等问题。而名锐讯动认为,广州医药管理系统开发是助力企业实现这一目标的关键一步。该系统的......