首页 > 其他分享 >文本识别之Tesseract安装

文本识别之Tesseract安装

时间:2024-08-16 15:27:28浏览次数:12  
标签:Tesseract OCR 文本 pytesseract tesseract 识别 环境变量 下载

1.概述

OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变换得到的内容。

tesseract下载地址:Index of /tesseract

进入下载页面,可以看到有各种.exe文件的下载列表,这里可以选择下载3.0版本。

其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.02.exe。

2.安装Tesseract

此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。

3.配置环境变量

为了在全局使用方便,比如安装路径为D:\工具\Tesseract-OCR,将该路径添加到环境变量的path中

配置完成后在命令行输入tesseract -v,如果出现如下图所示,说明环境变量配置成功

4.pycharm安装pytesseract

pip install -i Simple Index pytesseract

根据路径找到pip装的pytesseract.py

  保存后去运行程序会发现没办法使用pytesseract库,它还是会报错,这是由于环境变量也要进行设置。

点开我的电脑—》属性—》高级系统设置—》环境变量,新建一个变量:路径还是你刚刚安装的Tesseract-OCR路径,但是要将它定位到其中的tessdata,变量名也一定不能改。

 

保存后,请一定要重启,然后在去运行程序就可以使用pytesseract库了。

标签:Tesseract,OCR,文本,pytesseract,tesseract,识别,环境变量,下载
From: https://blog.csdn.net/zys1545243397/article/details/141260133

相关文章

  • C++图像识别、图像识别接口、ocr api
    如果您在找工作并且在找内容审核编辑的工作,那么不难发现,快手在全国多个招聘网站发布了关于“内容审核编辑”岗位的招聘信息,据悉,此次的“内容审核编辑”岗位招聘的规模达3000人。因为快手上面“低龄妈妈”内容的炒作,所以被要求整改,才有后续的大规模招聘内容审核编辑人员的现象......
  • 【Python-办公自动化】1秒提取PPT文本内容形成目录保存至WORD
    欢迎来到"花花ShowPython",一名热爱编程和分享知识的技术博主。在这里,我将与您一同探索Python的奥秘,分享编程技巧、项目实践和学习心得。无论您是编程新手还是资深开发者,都能在这里找到有价值的信息和灵感。自我介绍:我热衷于将复杂的技术概念以简单易懂的方式呈现给大家,......
  • 使用 Hugging Face Transformers 创建文本生成模型
    文本生成是自然语言处理中的一个重要任务,在聊天机器人、自动写作等领域有着广泛的应用。HuggingFaceTransformers是一个流行的Python库,它提供了大量预训练的模型以及API来实现各种自然语言处理任务。本文将详细介绍如何使用HuggingFaceTransformers库来创建一个简......
  • java opencv 图像匹配识别
    //region图像匹配3.0privateMatimageMatch(Imageori,Imagetbi){System.setProperty("java.awt.headless","false");System.out.println(System.getProperty("java.library.path"));URLurl=ClassLoader.getSystem......
  • 每天五分钟计算机视觉:人脸识别如何解决一次学习的问题?
    本文重点人脸识别技术作为当前计算机技术的重要分支,广泛应用于公共安全、智能家居、金融商业等多个领域。然而,尽管该技术取得了显著进展,但在实际应用中仍面临诸多挑战,其中一次学习问题(One-ShotLearningProblem)尤为突出。一次学习问题的定义我们人类是具有快速从少量(单)样本......
  • 解锁文本奥秘:NSLinguisticTagger在Objective-C中的语言分析之旅
    标题:解锁文本奥秘:NSLinguisticTagger在Objective-C中的语言分析之旅引言在Objective-C的丰富生态中,NSLinguisticTagger扮演着自然语言处理的重要角色。它提供了一套强大的API,用于对文本进行分词和标注,帮助开发者理解文本的结构和含义。本文将深入探讨NSLinguisticTagger的......
  • edge recognition 一种识别边缘的方法
       是按X/Y方向找一点特征的像素吗?怎么实现的,有没盆友参透......
  • 点击识别按钮调用后端接口,中途按下结束识别,但是识别还是进行啦js
    在JavaScript中,如果你想要在点击按钮后调用一个接口,并且在这个过程中按下一个按钮来中断或取消这个请求,你可以使用fetchAPI来发起请求,并使用AbortController来取消这个请求。以下是一个简单的例子://获取按钮元素conststartButton=document.getElementById('startButton');......
  • 身份证OCR识别接口如何用Java调用
    一、什么是身份证OCR识别接口?身份证OCR识别接口又叫身份证识别,身份证图像识别,身份证文字识别,即自动识别和提取身份证上的文字和数字信息。它可以通过图像处理和模式识别算法,将身份证中的姓名、性别、民族、出生日期、住址、身份证号、签发机关、有效期限等关键信息准确地提取......
  • <数据集>安全帽和安全背心识别数据集<目标检测>
    数据集格式:VOC+YOLO格式图片数量:22141张标注数量(xml文件个数):22141标注数量(txt文件个数):22141标注类别数:3标注类别名称:['helmet','vest','head']序号类别名称图片数框数1helmet15937572402vest394281313head7235124341使用标注工具:labelImg标注规则:对类别进行画水......