pytesseract and ddddocr

时间：2023-07-24 18:22:06浏览次数：42

标签：img text image ddddocr pytesseract 识别

一.pytesseract

1.简介

Pytesseract是一个Python库，用于将图像中的文本转换为可编辑的字符串。它是基于Google的Tesseract OCR引擎开发的。Tesseract是一个开源的OCR引擎，能够识别超过100种语言的文字。Pytesseract简化了与Tesseract的集成过程，并提供了一个简单的API，使得在Python中使用OCR功能变得更加容易

2.环境配置

1）下载程序并安装，下载地址：https://digi.bib.uni-mannheim.de/tesseract/

安装的时候记得勾选下载的语言，全选即可。

2）终端下载pytesseract库

pip install pytesseract

下载安装完成之后在当前项目下找到venv\Lib\site-packages\pytesseract\pytesseract.py文件，修改tesseract_cmd值

3.基本用法

我们要识别图片文字，最常用的方法就是image_to_string，语法如下，通常使用时传两个参数即可，要识别的图片和语言类型

def image_to_string(
    image,
    lang=None,
    config='',
    nice=0,
    output_type=Output.STRING,
    timeout=0,
):

下面看下实例

result_text = pytesseract.image_to_string("./img/img_5.png", lang='chi_sim')

# 输出结果
print(result_text)

如果涉及到识别的图片中存在多种语言，可以在lang中添加多种语言，用+号连接起来

import pytesseract
from PIL import Image



img = Image.open(url)
text = pytesseract.image_to_string(img, lang='chi_sim+eng')  # 识别中文和英文

各种语言类型如下图

eng	英文
chi_sim	简体中文
chi_tra	繁体中文
ara	阿拉伯文
jpn	日文
kor	韩文
spa	西班牙文
fra	法文
deu	德文
ita	意大利文
por	葡挞文
rus	俄文
vie	越南文
tha	泰文
tur	土耳其文
dan	丹麦文
nld	荷兰文
fin	芬兰文
nor	挪威文
swe	瑞典文
hun	匈牙利文
cze	捷克文
pol	波兰文
slk	斯洛伐克文
slv	斯洛文尼亚文
bul	保加利亚文
ell	希腊文
est	爱沙尼亚文
lit	立陶宛文
lav	拉脱维亚文
ron	罗马尼亚文
srp	塞尔尼亚文
ukr	乌克兰文
hin	印地文
ben	孟加拉文
mar	马拉地文
tam	泰米尔文
tel	泰卢固问
kan	卡纳达文
mal	玛拉雅拉姆文
orl	奥里亚文
pan	旁遮普文
guj	古吉拉特文
sin	僧伽罗文
mya	缅甸文

二.ddddocr

1.简介

OCR是一种将印刷或手写文本转换为可编辑文本的技术。ddddOCR利用深度学习算法识别图像中的字符，并将其转换为可编辑的文本。它可以应用于各种场景，如扫描文档、图像识别、车牌识别等。ddddOCR具有高准确性和高效率，可以在短时间内处理大量的图像，并能够适应不同的字体和文字样式。它可以应用于各种领域，如办公自动化、数据输入、图像处理等。

2.环境配置

 pip install ddddocr

3.基本用法

import ddddocr

ocr1 = ddddocr.DdddOcr()  # 实例化
with open("./img_2.png", 'rb') as f:
    img_bytes = f.read()
result_text = ocr1.classification(img_bytes)
print(result_text)

个人觉得ddddocr识别的特不准，毕竟是免费的，要想准确识别可以参考超级鹰：https://www.cnblogs.com/lihongtaoya/p/16727694.html

标签：img,text,image,ddddocr,pytesseract,识别
From： https://www.cnblogs.com/lihongtaoya/p/17577991.html

盘点一个ddddocr实现登录的实战案例
大家好，我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Pyhton网络爬虫的问题，这里拿出来给大家分享下。二、实现过程一开始看上去并不能登录，找不到原因在哪，后来【甯同学】帮忙搞定了，代码如下：#-*-coding:utf-8-*-#@Author:KongYi#@Time:2022/12/313:49......
python使用 pytesseract + tesseract-ocr 进行验证码识别
使用pytesseract+tesseract-ocr进行验证码识别，需要安装的第三方库：pytesseract、tesseract-ocr，在使用pytesseract之前，必须安装tesseract-ocr，因为pytesseract依赖于t......
python - ddddocr验证码识别
1.ddddocr安装建议使用国内镜像安装pip3installddddocr-ihttps://pypi.tuna.tsinghua.edu.cn/simple2.图片验证码importddddocrocr=ddddocr.DdddOcr(show_a......
# yyds干货盘点 # 盘点一个ddddocr实现登录的实战案例
大家好，我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Pyhton网络爬虫的问题，这里拿出来给大家分享下。二、实现过程一开始看上去并不能登录，找不到原因......
盘点一个ddddocr实现登录的实战案例
大家好，我是皮皮。一、前言前几天在Python白银交流群【空翼】问了一个Pyhton网络爬虫的问题，这里拿出来给大家分享下。二、实现过程一开始看上去并不能登录，找不到原因在......
使用ddddocr识别验证码
importurllib3importddddocrcode_url="http://www.xxxx.com/code.php"headers="{你的header是内容}"http=urllib3.PoolManager()resq=http.request('GET',cod......
centos7.9 安装ddddocr验证码识别模块
正常安装pipinstallddddocr 但是因为会使用国外源，很慢，所以我们使用国内源首先先安装opencv-python-headless注意要使用小于4.3版本的，否则按照不上，windows忽略这一......
python ddddocr图片验证码详解
下载地址：https://pypi.tuna.tsinghua.edu.cn/simple/ddddocr/安装命令：pipinstallD:\ChromeCoreDownloads\ddddocr-1.3.0-py3-none-any.whl-ihttps://pypi.tuna.ts......
Python安装OCR识别库tesserocr_pytesseract教程
Python安装OCR识别库tesserocr1.tesserocr下载https://digi.bib.uni-mannheim.de/tesseract/尽量选不带dev的版本，dev是开发版本，不带dev的是稳定版个人配置tesseract-......
ddddocr 通用验证码识别
代码不多，非常简单。安装ddddocr（带带弟弟OCR）pipinstallddddocr模块安装好之后咱们先导入一下importddddocr然后实例化一下，用一个cor接收一下这个数据。ocr......

pytesseract and ddddocr

一.pytesseract

1.简介

2.环境配置

3.基本用法

二.ddddocr

1.简介

2.环境配置

3.基本用法

相关文章

赞助商

阅读排行