首页 > 其他分享 >走进CSIG|文档图像大模型在智能文档处理领域中的应用

走进CSIG|文档图像大模型在智能文档处理领域中的应用

时间:2024-01-08 13:33:57浏览次数:31  
标签:GPT4 OCR 模型 文档 CSIG 图像 识别


⭐️前言

2023年12月28-31日,第十九届中国图象图形学学会青年科学家会议在中国广州召开。本次会议由中国图象图形学学会主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。王耀南院士、谭铁牛院士、中山大学赖剑煌教授、华南理工大学徐向民副校长、许勇副校长、琶洲实验室常务副主任李远清教授、北京大学林宙辰教授共同担任大会主席。

会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,会议将设5个大会报告,27个主题分论坛,4个Tutorial,总计近200场高水平学术报告。本文将给大家分享由合合信息智能技术平台事业部副总经理丁凯博士带来的企业报告《文档图像大模型的思考与探索》。

⭐️文档图像大模型的思考与探索

众所周知,2023年最火的便是CHAT GPT为代表的大规模语言模型,同时以GPT-4V和谷歌Gemini为代表的多模态大模型也非常受关注,并且取得了非常惊艳的效果。从微软对GPT-4V做的测评报告中可以看出GPT-4V在文档识别、图表识别这个领域的效果非常棒,特别是在认知和理解这个层面上,但文档领域的核心问题依然存在,如图像质量问题、文字识别问题、版面分析问题等。

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_02编辑在研究层面上将文档图像分析识别领域分成了若干个研究主题,包括图像分析与预处理、文档解析与识别、图像安全、版面分析与还原等。当规模的语言模型、大规模的视觉模型出来以后,文档图像分析识别领域会发生什么样的变化呢?核心问题能否得到彻底解决?会给研发方式带来什么冲击?

走进CSIG|文档图像大模型在智能文档处理领域中的应用_泛化_03

走进CSIG|文档图像大模型在智能文档处理领域中的应用_泛化_04编辑

为了搞清楚上述问题,我们先来看一看GPT4-V在IDP领域的表现。首先在场景文字识别领域,无论是多种场景还是多种语言形态,GPT4-V都可以取得较好的结果,与此同时,在手写识别这样的密集文档,以及几何图形和文字结合这种教育场景的文字识别和理解GPT4-V也可以取得较好的结果,对于这些教育场景,传统的文档处理方法需要多个模型进行缝合,而且必须针对特定的场景做定制,这种方法的泛化能力非常有限,从这个角度来看GPT4-V是非常惊艳的。其次在表格领域GPT4-V对表格的识别和理解也是非常不错的。最后一点,在信息抽取和文档理解领域,除了像常规的证件照这类简单的信息抽取以外,GPT4-V还可以针对各种比较复杂版式的文档图像以及文档图像和自然场景结合的信息进行抽取、理解和推理。

除此之外GPT4-V在对流程图、曲线图以及表格中的柱状图、线形图等进行识别和理解方面已表现出非常大的潜力。在这个领域传统的方法其实不多,并且这个领域的难度非常高,尤其是在泛化能力上传统方法和GPT4-V的差距是非常大的,所以GPT4-V在领域中的有些问题上远远领先于传统方法的水平。

走进CSIG|文档图像大模型在智能文档处理领域中的应用_泛化_05

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_06编辑虽然GPT4-V的能力非常惊艳,但GPT4-V依然不能把OCR领域的所有问题都解决。经过详细的分析发现,GPT4-V也存在着很多问题,比如中文,大家在用的时候会发现中文不管是手写体还是印刷体,GPT4-V识别出来会产生严重的幻觉,经常会输出一大段不存在的文字,并且对于手写公式的识别效果也不是特别好。为了更直观的看出GPT4-V在OCR和IDP领域的效果怎么样,金老师的团队发表了一篇文章量化的评估了一下GPT4-V和SOTA在OCR领域的对比。通过对比发现除了在手写英文识别接近之外,其他的场景如文字书别、多语言识别、手写公式识别等GPT4-V和SOTA的差距都非常大。

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_07

走进CSIG|文档图像大模型在智能文档处理领域中的应用_泛化_08编辑对以上问题进行分析可以看到GPT4-V的核心特点就是端到端的把文档领域的感知和认知问题解决了。传统方法是先做感知,再做认知,先做文档分析,再做NOP的理解。GPT4-V借助大规模语言模型在理解和认知的能力上非常强,它支持识别和理解文档元素,比如除了传统的文字表格、公式之外对流程图以及图表的识别能力也远远超过传统方法。当然GPT4-V也有不足的地方,比如它目前的精度距离SOTA还是有很大的差距。总体来说GPT4-V这种多模态的大模型其实就是提升了AI技术在IDP领域的能力边界,很多之前处理不好的问题,可以通过GPT4-V进行解决。

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_09

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_10编辑

基于目前的现状,需要思考以下几个问题。

第一,GPT4-V这样动态大模型无法处理像素级的任务,比如OCR任务、篡改检测、文本分割、文本擦除等。传统的方法处理这些问题的时候,往往是一个任务一个模型。此时基于大模型的启发,可以思考能否在像素级的人物上面做一个统一的多任务模型,通过更大的数据和算力提升效果。

第二,GPT4-V大模型跟传统算法比,GPT4-V的优势是泛化能力强、支持文档种类高,它的劣势是精度不够。那么基于这个基础,可以思考能否将两者的优势相结合,既能提高识别的精度,又可以提升泛化能力。

第三、在长文档的场景里,大模型十分依赖于前置文档的识别与分析引擎。可以思考将该领域里的文档识别分析引擎和LLM更好的结合来解决一些问题。

基于上述三个思考,合合信息-华南理工大学文档图像分析识别与理解联合实验室针对以下任务进行了重点研究。

走进CSIG|文档图像大模型在智能文档处理领域中的应用_文字识别_11

走进CSIG|文档图像大模型在智能文档处理领域中的应用_文字识别_12编辑

⭐️像素级OCR统一模型

首先分享像素级的OCR统一模型——UPOCR。它把文本擦除、文本分割和篡改文本检测者几个不同的像素级任务统一了任务的泛式架构和训练策略,并且通过引入科学系的任务提示来指导编码和解码结构,整个模型效果明显优于现有的专门模型。

UPOCR的主干网是ViTEraser,联合文本擦除、文本分割和篡改文本检测等3个不同的任务提示词进行统一训练,模型训练好后即可用于下游任务,无需针对下游任务进行专门的精调。

走进CSIG|文档图像大模型在智能文档处理领域中的应用_文字识别_13

走进CSIG|文档图像大模型在智能文档处理领域中的应用_泛化_14编辑

⭐️OCR大一统模型

其次是无需OCR的用于文档理解的Transformer模型,基于SPTS的OCR大一统模型(SPTS v3)将多种OCR任务定义为序列预测的形式。通过使用不同的prompt引导模型完成不同的OCR任务,可以极大地提高模型的泛化能力。例如,可以使用“where is the date on this document?”来询问文档中的日期位置,或者使用“what is the text on this image?”来识别图像中的文本。另外,SPTS v3沿用了SPTS的CNN + Transformer Encoder + Transformer Decoder的图片到序列的结构,这使得它可以更加高效地处理各种不同的OCR任务。

SPTSv3目前主要关注以下任务:端到端检测识别、表格结构识别、手写数学公式识别

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_15

走进CSIG|文档图像大模型在智能文档处理领域中的应用_文字识别_16编辑

⭐️文档识别分析+LLM应用

最后就是文档识别分析在应用层面上的工作,传统的方案是将长文档进行切片,然后向量化、向量召回再进行问答。这个方案存在一个问题,文档本身是有逻辑、有结构的,无论是文档图像还是电子文档它的顺序结构和版面分析对结果的影响都非常大,基于这一点合合信息提出了一套技术框架。当一个文档图像输入进来之后,首先通过已有的文档识别与版面分析技术把图像里面的版面段落表格公式目录结构阅读顺序全部提取出来,拿到这些信息之后基于段落语义和目录结构的文档切分基于文档元素和语义结构的多层次召回策略(标题,表格,段落关系等),最后再LLM问答。

走进CSIG|文档图像大模型在智能文档处理领域中的应用_泛化_17

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_18编辑

⭐️合合信息

合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。

公司C端业务主要为面向全球个人用户的APP产品,包括扫描全能王(智能扫描及文字识别APP)、名片全能王(智能名片及人脉管理APP)、启信宝(企业商业信息查询APP)3款核心产品;公司B端业务为面向企业客户提供以智能文字识别、商业大数据为核心的服务。

⭐️总结

GPT-4V给智能文档处理领域(IDP)带来了非常大的挑战和机遇,OCR和IDP领域也没有被GPT-4V给消灭,其中还是有非常多的工作值得我们去研究和探索。无论是OCR还是IDP它们和大模型不是互斥的,它们之间有着非常多的地方可以协作,可以让大模型做的更好,这里面也有很多工作是值得我们思考的。

⭐️抽奖福利

走进CSIG|文档图像大模型在智能文档处理领域中的应用_语言模型_19

走进CSIG|文档图像大模型在智能文档处理领域中的应用_文字识别_20编辑

合合信息给大家送福利了!填写问卷抽10个人送50元京东卡,1月12日开奖噢~


标签:GPT4,OCR,模型,文档,CSIG,图像,识别
From: https://blog.51cto.com/u_15125209/9142494

相关文章

  • 数据异常检测:在图像和视频处理中的应用
    1.背景介绍数据异常检测是一种常见的数据处理技术,它旨在识别和处理数据中的异常值或异常模式。在图像和视频处理中,数据异常检测的应用非常广泛,它可以帮助我们识别图像和视频中的缺陷、错误或异常情况,从而提高处理效率和质量。在本文中,我们将讨论数据异常检测在图像和视频处理中的应......
  • 探索半监督图卷积网络在医学图像分析中的应用
    1.背景介绍医学图像分析是一种利用计算机科学方法处理、分析和解释医学图像的技术。医学图像分析涉及到的领域包括影像诊断、影像生成、影像处理、影像检测和影像识别等。随着医学图像数据的快速增长,传统的医学图像分析方法已经无法满足现实中的需求。因此,医学图像分析需要借鉴深度......
  • SVM在图像检索中的应用:提高检索准确性与效率的关键技术
    1.背景介绍图像检索是一种计算机视觉技术,主要用于根据用户提供的查询图像,从图像库中找到与查询图像最相似的图像。图像检索在许多应用中发挥着重要作用,例如医疗诊断、商品推荐、人脸识别等。随着大数据时代的到来,图像库的规模不断扩大,这使得传统的图像检索方法在准确性和效率方面面......
  • 稀疏自编码与图像关键点检测的结合:提高检测准确率的方法
    1.背景介绍图像关键点检测是计算机视觉领域的一个重要研究方向,它旨在从图像中自动识别和提取具有代表性的特征点,如人脸、车牌、车身等。这些关键点通常具有较高的梯度值、对称性和局部最大值特征,因此在图像处理、图像识别、图像增强等应用中具有重要意义。传统的图像关键点检测方法......
  • 浅尝在 Rocky 9 下自助生成 PDF 格式的 TiDB 文档
    图片选自:https://asktug.com/t/topic/1020117TL;DRAsktug.com论坛里偶有小伙伴询问如何自助生成PDF格式的TiDB文档,或是PDF太长,经常查阅的只是其中一部分,如何只生成那一部分的TiDB文档。本文将介绍如何在RockyLinux9上自助生成PDF格式的TiDB文档。没听过十......
  • Android课程设计-安卓旅行日志APP+源代码+文档说明
    项目介绍简单的项目功能介绍:用户注册:邮箱填写、邮箱填写、密码填写、用户登录、用户忘记密码创建记事本:编写记事本、修改记事本、删除记事本、上传记事本数据管理:通过云服务器找回被删除的数据、本地笔记上传到云端、选择删除云端数据天气预报:获取用户当前位置的3天以内的天气情......
  • 安卓移动开发课程设计/Android期末大作业-小说app+源代码+文档说明
    项目介绍安卓课程设计—看书神器实现简单阅读器功能,纯新手安卓课设指南实现功能1.主页底部导航栏2.滚动图片3.从文件管理器读取txt文件4.登录注册退出登录登录相关数据保存在SharedPrefrences5页面大部分都是写死的,不过都有点击事件6.两个webview跳转到别的网站界面预览项目备注1......
  • 安卓移动开发课程设计/Android期末大作业,账本APP+源代码+文档说明
    项目介绍小凯账本APP,安卓端,个人的课程设计需求分析小凯账本APP是为了解决用户快捷方便记账的一款APP,所有的核心功能都是围绕记账展开,目的是为了简化方便记账流程,所以该APP的基本功能需求如表所示。功能说明添加账单分类账单分为收入和支出两类,具体在向下细分为用户自定义账单的分......
  • android移动开发大作业/课程设计-一个支持备注功能的课程表+源代码+文档说明
    项目介绍界面预览项目备注1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作......
  • 哈工大android大作业-博客系统+源代码+文档说明+结构图
    项目介绍android大作业,本项目包含三个基本功能,分别是博客爬虫,缓存服务,本地随笔。博客爬虫是分页爬取博客园博客,在app上显示博客的html格式(包括博客中的图片);缓存服务是按策略缓存一些博客到本地数据库,当用户没网时打开app也能有博客可浏览,而不是简单的请求连接网络提示,不会影响用......