标签：OCR ocr 开源 github 文档识别搭建

一、OCR是什么？

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

亦即将图像中的文字进行识别，并以文本的形式返回。

二、OCR的基本流程

1. 图像输入、预处理：

　　不同的图像格式有不同的存储、压缩方式，目前有OpenCV、CxImage等。

2. 二值化：

　　如今数码摄像头拍摄的图片大多是彩色图像，彩色图像所含信息量巨大，不适用于OCR技术。为了让计算机更快的、更好地进行OCR相关计算，

　　我们需要先对彩色图进行处理，使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

3. 图像降噪：

　　对于不同的图像根据噪点的特征进行去噪的过程称为降噪。

4. 倾斜校正：

　　由于一般用户，在拍照文档时，难以拍摄得完全符合水平平齐与竖直平齐（我本人就经常拍的歪歪扭扭），

　　因此拍照出来的图片不可避免的产生倾斜，这就需要图像处理软件进行校正。

5. 版面分析：

　　将文档图片分段落，分行的过程称为版面分析。

6. 字符切割：

　　由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。

　　因此需要进行字符切割，即：将不同字符之间分割开。

7. 字符识别：

　　早期以模板匹配为主，后期以结合深度网络的特征提取为主。版面还原：将识别后的文字像原始文档图片那样排列，

　　段落、位置、顺序不变地输出到Word文档、PDF文档等，这一过程称为版面还原。

8. 后期处理：根据特定的语言上下文的关系，对识别结果进行校正。

9. 输出：将识别出的字符以某一格式的文本输出。

三、OCR的使用现状

ocr的发展已经有了非常多的积累，一般人或者企业使用，都是直接使用第三方的服务，目前提供第三方服务的大企业也非常多，百度，阿里云，腾讯等等，都提供了非常方便的api接口，可以进行调用，识别的速度、精确度和效果也都是非常不错的。唯一的缺点就是api的调用是需要收费的，对于调用频次不高的个人和企业，这个费用还是非常低的。

1，为什么企业要使用开源的而不是直接使用api服务？

目前因为公司的现状，使用开源的有几个目的

每天调用的频次比较高，以后可能越来越高，所以基于费用的考虑是最主要的。
目前ocr的算法研究基本趋于成熟，并且目前对识别的精度要求不是太高，目前开源项目基本能够满足。
对于cv和深度学习进行一定程度的积累和了解，为后续工作做一些铺垫。
学习开源ocr的模型构建，方便后续对于模型的更新。

2，目前常用的几个OCR开源的项目

目前针对ocr的相关开源项目还是很多的，做了一些简单的调研和试用，在这里进行记录。对于调研不准确的希望大家指出。

第一名：PaddleOCR

PaddleOCR 是百度开源的中文识别的ocr开源软件，PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。

支持多种OCR相关前沿算法，在此基础上打造产业级特色模型PP-OCR和PP-Structure，并打通数据生产、模型训练、压缩、预测部署全流程。

开源地址： https://github.com/PaddlePaddle/PaddleOCR.git

官网地址： https://www.paddlepaddle.org.cn/

优势

github上面star非常多，项目非常活跃
模型只针对中文进行训练
后面做背书的公司非常强（baidu）
相关的中文文档非常齐全
识别的精确度比较高
安装和教程详细
支持前沿算法和标注工具

劣势

目前使用的训练模型是基于百度公司自己的PaddlePaddle框架，对于小公司来说并不主流（对比于ts或者pytorch），所使用深度学习框架为后续其他深度学习无法做很好的铺垫
项目整体比较复杂，学习成本较高

所以根据自己实际情况，我最终选择了这个百度飞浆OCR开源项目学习。

第二名：Tesseract

Tesseract 一款由HP实验室开发由Google维护的开源OCR引擎，支持多语言，多平台，使用python开发。

开源地址： https://github.com/tesseract-ocr/tesseract.git

优势

github上面star非常多，项目非常活跃
识别的语言和文字非常多
后面做背书的公司非常强（google）

劣势

不是专门针对中文场景
相关文档主要是英文，对于阅读和理解起来有一定困难
学习成本比较高
源码较多，并且部分源码是c++，学习起来难度比较大

所以根据自己实际情况放弃了这个项目的学习。

第三名：EasyOCR

EasyOCR是用Python编写基于Tesseract的OCR识别库，用于图像识别输出文本，目前支持80多种语言。

开源地址： https://github.com/JaidedAI/EasyOCR.git

优势

github上面的star也是比较多，但是最近不是特别活跃
支持的语言也是非常多的，多达80多种
识别的精确度尚可

劣势

从官方的页面体验来说识别的速度较慢
识别的文字种类多，学习难度较高
相关的官方文档是基于英文的，学习难度较高，对于新手不太友好

所以根据自己实际情况放弃了这个项目的学习。

标签：OCR,ocr,开源,github,文档,识别,搭建
From： https://www.cnblogs.com/xh2023/p/17498364.html

搭建自己的OCR服务，第一步：选择合适的开源OCR项目