项目结构

Deepdoc是RAG框架RAGFLOW中使用的文档解析工具。

|--deepdoc
	|--parser
	    |--resume
	        |--entities
	 		|--step_one.py
	 		|--step_two.py
	    |--docx_parser.py
	    |--pdf_parser.py
	    |--excel_parser.py
	    |--html_parser.py
	    |--json_parser.py
	    |--markdown_parser.py
	    |--ppt_parser.py
	|--vision
	    |--layout_recoginzer.py
	    |--ocr.py
	    |--ocr.res
	    |--operators.py
	    |--postprocess.py
	    |--recoginzer.py
	    |--seeit.py
	    |--t_recoginzer.py
	    |--t_ocr.py
	    |--table_structure_recognizer.py

核心组件

OCR
版面结构分析
表格结构识别
解析器

解析器

简历类型的处理

简历是完全没有规律的文档，一份简历可以分解为多个字段组成的结构化数据。因此需要做特殊处理，entities中定义了一些大学、公司、产业等信息，用于后续关键词提取；整个简历的处理过程分为两部进行：第一步先根据预先定义的关键词提取有效信息、接着再第二步再做一些合并以及过滤操作。

PDF文档的处理

PDF文档比较复杂，需要用到OCR模型，并且版面结构不同，内置了很多排序规则，另外还用到了XGB用于规则之外的补充。

经过实测，规则已经处理了绝大部分文本块的排序过程，XGB作用不大，并且通过特征重要性可以看到主要是坐标类型的特征起到了作用。

整个处理流程可以简化如下：
文档转图片->版面分析->表格识别->文字识别->合并段落->后处理

其他类型的处理

每一种类型的文档都有一个对应的解析器，基本都是用现成的库进行处理的。

视觉信息处理

版面结构识别

不同类型的文件具有不同的布局，对于论文来说，会包含较多的图表、甚至还会有公式，因此只有当准确识别出文件的类型和布局才能有效处理该文档。版面结构定义了以下10种类别，用于区分不同的内容：

文本
标题
配图
配图标题
表格
表格标题
页头
页尾
参考引用
公式

执行命令:

python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=layout --output_dir=path_to_store_result

表格结构识别

表的结构可能非常复杂，比如多层次结构标题、跨单元格以及行列结构不统一等。表结构识别针对表格内容定义了5种类别：

列
行
列标题
行标题
合并单元格

执行命令:

python deepdoc/vision/t_recognizer.py --inputs=path_to_images_or_pdfs --threshold=0.2 --mode=tsr --output_dir=path_to_store_result

与版面结构分析不同，表格结构识别只会把可能是表格的区域识别出来

标签：RAG,py,表格,Deepdoc,--,parser,文档,识别
From： https://www.cnblogs.com/deeplearningmachine/p/18331257

基于SpringBoot+Vue的宠物医院管理系统设计与实现(源码+lw+部署文档+讲解等)
文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我自己的网站自己的小程序（小蔡coding）代码参考数据库参考源码获取前言......
基于SpringBoot+Vue的高校实验室教学管理系统的设计和实现(源码+lw+部署文档+讲解等)
文章目录前言详细视频演示论文参考具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我自己的网站自己的小程序（小蔡coding）代码参考数据库参考源码获取前言......
基于SpringBoot+Vue+uniapp的竞赛报名系统的详细设计和实现(源码+lw+部署文档+讲解等)
文章目录前言详细视频演示具体实现截图技术栈后端框架SpringBoot前端框架Vue持久层框架MyBaitsPlus系统测试系统测试目的系统功能测试系统测试结论为什么选择我代码参考数据库参考源码获取前言......
SmartSQL：一款方便、快捷的数据库文档查询、生成工具
SmartSQL⚡一款方便、快捷的数据库文档查询、生成工具致力于成为帮助企业快速实现数字化转型的元数据管理工具......
JAVA毕业设计|springboot房屋租赁系统包含文档代码讲解
收藏点赞不迷路关注作者有好处文末获取源码一、系统展示二、万字文档展示开发语言：Java数据库：MySQL技术：Spring+SpringMVC+MyBatis+Vue工具：IDEA/Ecilpse、Navicat、Maven 编号：springboot008一、系统展示二、万字文档展示第5章系统详细设计5.1管理员功能模......
JAVA毕业设计|springboot在线宠物用品交易网站的设计与实现包含文档代码讲解
收藏点赞不迷路关注作者有好处文末获取源码一、系统展示二、万字文档展示开发语言：Java数据库：MySQL技术：Spring+SpringMVC+MyBatis+Vue工具：IDEA/Ecilpse、Navicat、Maven 编号：springboot082一、系统展示二、万字文档展示第5章系统详细设计5.1管理员模块的......
App Inventor 2 低功耗蓝牙 BlueToothLE 拓展中文文档（完整翻译加强版）
低功耗蓝牙，也称为蓝牙LE或简称BLE，是一种类似于经典蓝牙的新通信协议，不同之处在于它旨在消耗更少的功耗和成本，同时保持同等的功能。因此，低功耗蓝牙是与耗电资源有限的物联网设备进行通信的首选。BluetoothLE扩展需要Android5.0或更高版本。BlueToothLE拓展中文文档入口......
JSP学生社团管理系统k2120（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文
系统程序文件列表开题报告内容JSP学生社团管理系统开题报告一、课题背景与意义课题背景随着高等教育的普及和学生综合素质培养的重视，学生社团在高校中扮演着越来越重要的角色。它们不仅是学生锻炼能力、展示才华的平台，也是促进学生交流、丰富校园文化生活的重要途径。然而......
vue中sessionStorage的使用
localStorage和sessionStorage属性允许在浏览器中存储key/value对的数据。sessionStorage用于临时保存同一窗口(或标签页)的数据，在关闭窗口或标签页之后将会删除这些数据。提示:如果你想在浏览器窗口关闭后还保留数据，可以使用localStorage属性，改数据对象没有过期时间，......
纳米体育数据API电竞数据API：资料库数据包接口文档API示例⑤
纳米体育数据的数据接口通过JSON拉流方式获取200多个国家的体育赛事实时数据或历史数据的编程接口，无请求次数限制，可按需购买，接口稳定高效；覆盖项目包括足球、篮球、网球、电子竞技、奥运等专题、数据内容。纳米数据API2.0版本包含http协议以及websocket协议，主要通过http获取数......

RAG文档解析利器：Deepdoc