Tesseract开源的OCR工具及python pytesseract安装使用

时间：2023-07-25 13:34:33浏览次数：43

标签：OCR python pytesseract tesseract Tesseract 安装

一、介绍

Tesseract是一款由Google赞助的开源OCR。 pytesseract是python包装器，它为可执行文件提供了pythonic API。

Tesseract 已经有 30 年历史，开始它是惠普实验室的一款专利软件，在2005年后由Google接手并进一步开发和完善。Tesseract支持多种语言文字的检测和识别，包括中文、英语、德语、法语、意大利语等多种主要语言，同时也支持针对特定场景或应用的领域OCR开发。

Tesseract基于机器学习技术，使用了多层神经网络以及支持向量机（SVM）等算法进行文字特征提取和识别。同时，Tesseract通过图像预处理、二值化、斑点去除和边框检测等多个环节优化页面处理流程，并且提供了多种字体、大小、旋转角度和噪声等挑战场景下的训练数据集，使得识别精度可以获得不错的性能表现。

二、安装

1、python安装pytesseract

pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple/

2、python安装Pillow图片处理

pip install Pillow -i https://pypi.tuna.tsinghua.edu.cn/simple/

3、pytesseract需要和安装在本地的tesseract-ocr.exe文件一起使用

tesseract-ocr.exe 下载地址 github

默认安装勾选中文语言包

4、系统变量path添加tesseract的安装路径xx:\Program Files\tesseract

系统变量path详细添加,或者遇到没有找到文件问题请看我的下一篇

三、使用

import pytesseract
from PIL import Image
#英文lang='eng'#中文:lang='chi_sim'#中英文混合：lang='chi_sim+eng'
text = pytesseract.image_to_string(Image.open(r"./img/a.jpg"), lang='eng')
print("英文：",text)

标签：OCR,python,pytesseract,tesseract,Tesseract,安装
From： https://www.cnblogs.com/hiit/p/17579379.html

Python的OCR工具pytesseract解决TesseractNotFoundError: tesseract is not installed
pytesseract是基于Python的OCR工具，底层使用的是Google的Tesseract-OCR引擎，支持识别图片中的文字，支持jpeg,png,gif,bmp,tiff等图片格式。如何安装使用请看我的上一篇。在使用pytesseract打开图片是遇到没有找到文件解决pytesseract.pytesseract.TesseractNotFoundError:te......
Python 命令行库
argparse、docopt、click、fire google/python-fire:PythonFireisalibraryforautomaticallygeneratingcommandlineinterfaces(CLIs)fromabsolutelyanyPythonobject.(github.com)PythonFire PythonFireisalibraryforautomaticallygenera......
PYTHON用户流失数据挖掘：建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素
原文链接：http://tecdat.cn/?p=24346最近我们被客户要求撰写关于用户流失数据挖掘的研究报告，包括一些图形和统计输出。在今天产品高度同质化的品牌营销阶段，企业与企业之间的竞争集中地体现在对客户的争夺上“用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企......
用Python画一只小兔子，祝您新年前途似锦，大展宏图
用Python画一只小兔子，祝您新年前途似锦，大展宏图兔年到了，祝大家新年前途似锦！大展宏图！2021牛年，我用Python画了一头金牛，参考：Python画金牛2022虎年，我用Python画了一只小老虎，参考：Python画小老虎今年是第三年，还是一样的方式，今年画一只小兔子，为大家送上祝福。绘图过程录制成了如下视频，点......
php和python哪个更有用
1、开发一个网站,后端用go语言,前端用PHP、Ruby还是python比较好...2、用半年的时间来开发一个新网站,应该选PHP还是Python?3、Python爬虫技术与php爬虫技术对比,哪个更有优势?4、python与php的区别是什么开发一个网站,后端用go语言,前端用PHP、Ruby还是python比较好...1......
Python分析调试神器VizTracer
VizTracer 是一个这样的工具，它通过跟踪和可视化Python代码的执行过程，来帮助你对代码的理解。无需对源代码进行任何更改，VizTracer即可记录函数的入口/出口，函数参数/返回值以及任意变量，然后通过 Trace-Viewer 使用直观的谷歌前端界面来显示数据。VizTracerisalow-o......
想知道python是什么，Python可以做什么呢？
python可以在数据爬虫、Web开发、人工智能开发、自动化运维和数据分析数据等领域进行应用。而且Python是跨平台语言，语法很简洁，对初学者十分友好。Python的应用用途：1、数据爬虫Python语言非常适合爬虫，通过requests库抓取网页数据，使用BeautifulSoup解析网页并清晰和组......
python for 跳出循环
(99条消息)Python中跳出循环的两种方法_python跳出循环_在线码BUG的博客-CSDN博客#结束本次循环，继续下次循环foriinrange(1,10):ifi==3:continueelse:print('循环了',i,'次')#结束for循环foriinrange(1,10):ifi==3:br......
【python】删除字符串中以\x开头的特殊字符
1、场景 paramiko获取的字符串中有很多\x开头的字符，需要去除，获取原始输出 2、处理方法content="\x071cd\0x70"#使用unicode-escape编码集，将unicode内存编码值直接存储，并替换空白字符content=content.encode('unicode_escape').decode('utf-8').replace('','......
python数据分析项目有趣新零售-无人智能售货机商务数据分析
嗨喽!大家好，我是“流水不争先，争得滔滔不绝”的翀，18双非本科生一枚，正在努力！欢迎大家来交流学习，一起学习数据分析，希望我们一起好好学习，天天向上，目前是小社畜一枚~~项目名称新零售无人智能售货机1.数据探索1.1数据读取1.2设备编号1.3订单编号1.4支付状态1.5收款方2.......

Tesseract开源的OCR工具及python pytesseract安装使用

相关文章

赞助商

阅读排行