首页 > 其他分享 >文本识别 (OCR)引擎之Tesseract的使用

文本识别 (OCR)引擎之Tesseract的使用

时间:2023-10-14 17:02:24浏览次数:32  
标签:OCR Tesseract -- 文本 pytesseract 识别 tesseract

Tesseract

概述

Tesseract是一个开源文本识别 (OCR)引擎,是目前公认最优秀、最精确的开源OCR系统,用于识别图片中的文字并将其转换为可编辑的文本。

Tesseract能够将印刷体文字图像转换成可编辑文本,它支持多种语言,并且在许多平台上都可使用,包括Windows、Mac OS和Linux。Tesseract可以处理各种图像文件格式,如JPEG、PNG、TIFF等。

Tesseract的主要功能是识别图像中的文字,并将其转换成机器可读的文本内容。它采用了一系列图像处理、特征提取和机器学习技术来实现文字识别的过程。Tesseract算法的基础是使用训练好的模型来识别字符,并通过上下文和语言模型来提高识别准确性。

GitHub地址:https://github.com/tesseract-ocr/tesseract

常见OCR识别平台

微软Azure图像识别:https://azure.microsoft.com/zh-cn/services/cognitive-services/computer-vision

有道智云文字识别:https://ai.youdao.com

阿里云图文识别:https://www.aliyun.com/product/cdi

腾讯OCR文字识别:https://cloud.tencent.com/product/ocr

下载安装

安装说明

https://tesseract-ocr.github.io/tessdoc/Installation.html

官方不提供最新版windows平台安装包,只有相对略老的3.02.02版本

https://sourceforge.net/projects/tesseract-ocr-alt/files/

直接下载

https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-setup-3.02.02.exe/download

德国曼海姆大学发行的3.05版本下载地址

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe

新版都是三方维护和管理的安装包

UB Mannheim提供的: https://github.com/UB-Mannheim/tesseract/wiki

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w32-setup-5.3.0.20221222.exe

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.0.20221222.exe

安装后得到如下目录 在这里插入图片描述

配置

1.配置语言字体库

在安装目录下,默认有个 tessdata目录,该目录中存放的是语言字库文件

在这里插入图片描述 访问:https://github.com/tesseract-ocr/tessdata项目,下载需要的语言字库文件,例如中文字库:chi_sim.traineddata下载后放到该目录即可。 在这里插入图片描述

或者访问:https://tesseract-ocr.github.io/tessdoc/Data-Files寻找合适的版本下载

2.配置环境变量

添加PATH环境变量,可方便的执行tesseract命令

D:\Development\Tesseract-OCR

添加TESSDATA_PREFIX变量名,将语言字库文件夹添加到变量中

D:\Development\Tesseract-OCR\tessdata

命令使用

打开命令行窗口,输入tesseract -v命令进行验证。

C:\Users\Admin>tesseract -v
tesseract v5.3.0.20221222
 leptonica-1.78.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0
 Found AVX2
 Found AVX
 Found FMA
 Found SSE4.1
 Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5
 Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

显示帮助

C:\Users\Admin>tesseract --help
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.

显示当前训练语言列表

C:\Users\Admin>tesseract --list-langs
List of available languages in "D:\Development\Tesseract-OCR/tessdata/" (3):
chi_sim
eng
osd

语法

英文: tesseract imagename outputbase [-l lang] [--psm pagesegmode]

中文:命令程序    被识别图片    输出文件    -l 语言    --psm 识别级别
-l eng:代表使用英语识别

-psm 7:表示用单行文本识别

pagesegmode可选值:

0 =定向和脚本检测(OSD)
1 =带OSD的自动页面分割
2 =自动页面分割,但没有OSD或OCR
3 =全自动页面分割,但没有OSD(默认)
4 =假设一列可变大小的文本
5 =假设一个统一的垂直对齐文本块
6 =假设一个统一的文本块
7 =将图像作为单个文本行处理
8 =把图像当作一个单词
9 =把图像当作一个圆圈中的一个词来对待
10 =将图像作为单个字符处理

测试验证

tesseract.exe D:\dev\test.png D:\dev\out  -l eng --psm 7

在这里插入图片描述

tesseract.exe D:\dev\test2.png D:\dev\out  -l chi_sim  --psm 7

在这里插入图片描述

Tesseract的使用

安装python库

# PIL用于打开图片文件
pip/pip3 install pillow

# pytesseract模块用于从图片中解析数据
pip/pip3 install pytesseract

基本使用

# 导入模块
import pytesseract
# 导入图片库,需要安装库: pip install Pillow
from PIL import Image

# 创建图片对象,使用pillow库加载图片
image = Image.open("E:\\dev\\test.png")

# 识别图片
text = pytesseract.image_to_string(image, config="--psm 7")
print(text)

可能的异常

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

方案一:

# 导入模块
import pytesseract
# 导入图片库,需要安装库: pip install Pillow
from PIL import Image

# 指定tesseract目录,该目录是安装tesseract-OCR的目录:
pytesseract.pytesseract.tesseract_cmd = r'D:\Development\Tesseract-OCR\tesseract.exe'

# 创建图片对象,使用pillow库加载图片
image = Image.open("E:\\dev\\test.png")
# 识别图片
text = pytesseract.image_to_string(image, config="--psm 7")
print(text)

方案二:

在pytesseract库下的pytesseract.py文件中找到tesseract_cmd = 'tesseract',修改成

tesseract_cmd = r'D:\Development\Tesseract-OCR\tesseract.exe'

在这里插入图片描述

D:\Development\Python\env\py\Scripts\python.exe D:/WorkSpace/Python/demo/apps/zd_admin/test/test.py
Tesseract


Process finished with exit code 0

更换语言字体库识别

# 导入模块
import pytesseract
# 导入图片库,需要安装库: pip install Pillow
from PIL import Image

# 指定tesseract目录,该目录是安装tesseract-OCR的目录:
pytesseract.pytesseract.tesseract_cmd = r'D:\Development\Tesseract-OCR\tesseract.exe'

# 创建图片对象,使用pillow库加载图片
image = Image.open("E:\\dev\\test2.png")

# 使用tesseract识别图像的文字,chi_sim中文简体:
text = pytesseract.image_to_string(image, lang='chi_sim', config='--psm 6')
print(text)

在这里插入图片描述

Tesseract的训练

Tesseract的识别是有点不够准确,因此可以进行Tesseract的训练提高tesseract识别字符准确率。

Tesseract是支持多种语言的识别,需要下载并安装相应语言的训练数据文件,这些文件可以在Tesseract的GitHub页面的essdata目录中找到。

Tesseract的训练可以使用jTessBoxEditor训练工具来训练样本

标签:OCR,Tesseract,--,文本,pytesseract,识别,tesseract
From: https://blog.51cto.com/chencoding/7862564

相关文章

  • 基于Win 自带的.NET FrameWork平台,使用文本文件编写C#代码,命令行编译以及引用第三方库
    转载自https://www.infoq.cn/article/2015/12/visual-studio-windows 不用VisualStudio也能开发.NETWindows应用邵思华2015-12-29本文字数:2915字阅读完需:约10分钟对于.NET应用的开发人员而言,以VisualStudio(简称VS)作为首选的开发工具应当是一种最......
  • vue-quill-editor富文本编辑器
    安装npm vue-quill-editornpminstallvue-quill-editor--save引入main.js文件里//字典标签组件importquillEditorsfrom"./components/quillEditor/index";//注册全局容器Vue.component("quillEditors",quillEditors);//富文本框文件目录预览openai的chatgpt描述一个表......
  • C# 向当前活动文本框输入文字
    #region向当前活动文本框输入文字///<summary>///向当前活动文本框输入文字///newSendMsg().SendText("你要输入的字符串");///</summary>publicclassSendMsg{[DllImport("user32.dll")]publicstaticexternIntP......
  • linux 中给文本按照指定列标记重复次数
     001、[root@pc1test2]#lsa.txt[root@pc1test2]#cata.txt##测试数据abbabcffba[root@pc1test2]#awk'{ay[$0]++;printay[$0],$0}'a.txt##按照列标记重复次数1a1b2b2a3b1c1f2f4b3a 。 ......
  • Java也能做OCR!SpringBoot 整合 Tess4J 实现图片文字识别
    前言今天给大家分享一个SpringBoot整合Tess4j库实现图片文字识别的小案例,希望xdm喜欢。文末有案例代码的Git地址,可以自己下载了去玩玩儿或继续扩展也行。话不多说,开整吧。什么是Tess4j库先简单给没听过的xdm解释下,这里要分清楚Tesseract和Tess4j的区别。Tesseract是一个......
  • 使用 Open XML SDK 实现 html 富文本转换为 docx 格式示例
     使用OpenXMLSDK实现html富文本转换为docx格式文档相对复杂。下面是一个示例。手动检测<strong>和<em>标签并应用相应的文本格式。usingSystem;usingDocumentFormat.OpenXml;usingDocumentFormat.OpenXml.Packaging;usingDocumentFormat.OpenXml.Wordproces......
  • Java word文本分词器简单使用
    1、引入依赖<dependency><groupId>org.apdplat</groupId><artifactId>word</artifactId><version>1.2</version></dependency>2、使用@OverridepublicList&l......
  • 文本向量化
    文本向量化文本向量化是将文本表示成一系列能够表达文本语义的向量。词语是表达文本处理的最基本单元,因此当前阶段对文本向量化大部分的研究都是通过对词向量化实现的。与此同时,也有相当一部分研究者将文章或者句子作文文本处理的基本单元,与之对应的是doc2vec和str2vec技术。1.词向......
  • CSS 多行文本超链接下划线动效
    先看效果乍一看,是不是感觉很简单,仔细一瞅发现事情好像没有那么简单。如果十分钟还没想出怎么实现,那就把简历上的“精通css”改成“了解css”……......
  • winform-RichTextBox控件(有格式文本控件)
    RichTextBox控件用于显示、输入和操作带有格式的文本   除了执行TextBox控件的所有功能外,还可以显示字体、颜色和链接 1、在RichTextBox控件中显示滚动条  2、在RichTextBox控件中设置字体属性 3、将RichTextBox控件显示为超链接样式 4、在RichTextBox控件......