首页 > 编程语言 >Tesseract开源的OCR工具及python pytesseract安装使用

Tesseract开源的OCR工具及python pytesseract安装使用

时间:2023-07-25 13:34:33浏览次数:36  
标签:OCR python pytesseract tesseract Tesseract 安装

一 、介绍

Tesseract是一款由Google赞助的开源OCR。 pytesseract是python包装器,它为可执行文件提供了pythonic API。

Tesseract 已经有 30 年历史,开始它是惠普实验室的一款专利软件,在2005年后由Google接手并进一步开发和完善。Tesseract支持多种语言文字的检测和识别,包括中文、英语、德语、法语、意大利语等多种主要语言,同时也支持针对特定场景或应用的领域OCR开发。

Tesseract基于机器学习技术,使用了多层神经网络以及支持向量机(SVM)等算法进行文字特征提取和识别。同时,Tesseract通过图像预处理、二值化、斑点去除和边框检测等多个环节优化页面处理流程,并且提供了多种字体、大小、旋转角度和噪声等挑战场景下的训练数据集,使得识别精度可以获得不错的性能表现。

 

二、安装

1、python安装pytesseract

pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple/

 2、python安装Pillow图片处理

pip install Pillow -i https://pypi.tuna.tsinghua.edu.cn/simple/

 

3、pytesseract需要和安装在本地的tesseract-ocr.exe文件一起使用

tesseract-ocr.exe 下载地址 github

默认安装勾选中文语言包

 4、系统变量path添加tesseract的安装路径xx:\Program Files\tesseract

系统变量path详细添加,或者遇到没有找到文件问题请看我的下一篇

三、使用

import pytesseract
from PIL import Image
#英文lang='eng'#中文:lang='chi_sim'#中英文混合:lang='chi_sim+eng'
text = pytesseract.image_to_string(Image.open(r"./img/a.jpg"), lang='eng')
print("英文:",text)

 

标签:OCR,python,pytesseract,tesseract,Tesseract,安装
From: https://www.cnblogs.com/hiit/p/17579379.html

相关文章

  • Python的OCR工具pytesseract解决TesseractNotFoundError: tesseract is not installed
    pytesseract是基于Python的OCR工具,底层使用的是Google的Tesseract-OCR引擎,支持识别图片中的文字,支持jpeg,png,gif,bmp,tiff等图片格式。如何安装使用请看我的上一篇。在使用pytesseract打开图片是遇到没有找到文件解决pytesseract.pytesseract.TesseractNotFoundError:te......
  • Python 命令行库
     argparse、docopt、click、fire   google/python-fire:PythonFireisalibraryforautomaticallygeneratingcommandlineinterfaces(CLIs)fromabsolutelyanyPythonobject.(github.com)PythonFire PythonFireisalibraryforautomaticallygenera......
  • PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素
    原文链接:http://tecdat.cn/?p=24346最近我们被客户要求撰写关于用户流失数据挖掘的研究报告,包括一些图形和统计输出。在今天产品高度同质化的品牌营销阶段,企业与企业之间的竞争集中地体现在对客户的争夺上“用户就是上帝”促使众多的企业不惜代价去争夺尽可能多的客户。但是企......
  • 用Python画一只小兔子,祝您新年前途似锦,大展宏图
    用Python画一只小兔子,祝您新年前途似锦,大展宏图兔年到了,祝大家新年前途似锦!大展宏图!2021牛年,我用Python画了一头金牛,参考:Python画金牛2022虎年,我用Python画了一只小老虎,参考:Python画小老虎今年是第三年,还是一样的方式,今年画一只小兔子,为大家送上祝福。绘图过程录制成了如下视频,点......
  • php和python哪个更有用
    1、开发一个网站,后端用go语言,前端用PHP、Ruby还是python比较好...2、用半年的时间来开发一个新网站,应该选PHP还是Python?3、Python爬虫技术与php爬虫技术对比,哪个更有优势?4、python与php的区别是什么开发一个网站,后端用go语言,前端用PHP、Ruby还是python比较好...1......
  • Python分析调试神器VizTracer
     VizTracer 是一个这样的工具,它通过跟踪和可视化Python代码的执行过程,来帮助你对代码的理解。无需对源代码进行任何更改,VizTracer即可记录函数的入口/出口,函数参数/返回值以及任意变量,然后通过 Trace-Viewer 使用直观的谷歌前端界面来显示数据。VizTracerisalow-o......
  • 想知道python是什么,Python可以做什么呢?
    ​ python可以在数据爬虫、Web开发、人工智能开发、自动化运维和数据分析数据等领域进行应用。而且Python是跨平台语言,语法很简洁,对初学者十分友好。Python的应用用途:1、数据爬虫Python语言非常适合爬虫,通过requests库抓取网页数据,使用BeautifulSoup解析网页并清晰和组......
  • python for 跳出循环
    (99条消息)Python中跳出循环的两种方法_python跳出循环_在线码BUG的博客-CSDN博客#结束本次循环,继续下次循环foriinrange(1,10):ifi==3:continueelse:print('循环了',i,'次')#结束for循环foriinrange(1,10):ifi==3:br......
  • 【python】删除字符串中以\x开头的特殊字符
    1、场景  paramiko获取的字符串中有很多\x开头的字符,需要去除,获取原始输出  2、处理方法content="\x071cd\0x70"#使用unicode-escape编码集,将unicode内存编码值直接存储,并替换空白字符content=content.encode('unicode_escape').decode('utf-8').replace('','......
  • python数据分析项目有趣 新零售-无人智能售货机商务数据分析
        嗨喽!大家好,我是“流水不争先,争得滔滔不绝”的翀,18双非本科生一枚,正在努力!欢迎大家来交流学习,一起学习数据分析,希望我们一起好好学习,天天向上,目前是小社畜一枚~~项目名称新零售无人智能售货机1.数据探索1.1数据读取1.2设备编号1.3订单编号1.4支付状态1.5收款方2.......