首页 > 其他分享 >网络爬虫 -- 验证码识别

网络爬虫 -- 验证码识别

时间:2022-12-26 21:04:22浏览次数:39  
标签:tesseract -- res image 爬虫 验证码 import 识别 hd


0x00 下载安装tesseract

1、下载地址

http://digi.bib.uni-mannheim.de/tesseract/

2、安装成功后,配置环境变量

网络爬虫 -- 验证码识别_下载安装

3、检查是否设置成功

tesseract -v

网络爬虫 -- 验证码识别_python_02

4、安装tesseract库和pillow库文件

pip3 install tesserocr pillow

0x01 识别测试

1、将该图片保存到桌面

网络爬虫 -- 验证码识别_Image_03

2、代码实现,识别有误差

import pytesseract
from PIL import Image


image=Image.open('123.png')
res=pytesseract.image_to_string(image)
print(res)


运行结果: 65ab

0x02 处理图片再识别

有时候识别的时候有问题,我们可以修改一些识别值,将图片转成黑白色,通过线面代码修改hd这个值,会提高一定的识别率

import pytesseract
from PIL import Image
import numpy as np


image=Image.open('123.png')
image=image.convert('L')
hd=150
sz=np.array(image)
sz=np.where(sz > hd,255,0)
image=Image.fromarray(sz.astype('uint8'))
#image.show()
res=pytesseract.image_to_string(image)


print(res)

0x03 声明

《Python3网络爬虫开发实战 第二版》章节内容改编。

仅供安全研究与学习之用,若将工具做其他用途,由使用者承担全部法律及连带责任,作者不承担任何法律及连带责任。

欢迎关注公众号编程者吧

网络爬虫 -- 验证码识别_python_04

标签:tesseract,--,res,image,爬虫,验证码,import,识别,hd
From: https://blog.51cto.com/u_15288375/5970994

相关文章

  • 爬虫内容保存到txt文件
    0x01源码如下frompyqueryimportPyQueryimportrequestsurl="https://www.dandanzan10.top/dianying/index.html"heads={'user-agent':'Mozilla/5.0(WindowsN......
  • pyquery库和parsel库的使用
    0x01安装pyquery库该库可以直接通过css选择器进行字符串查找pipinstallpyquery0x02初始化操作通过PyQuery初始化字符串frompyqueryimportPyQueryimportrequestsurl......
  • 爬虫学习笔记 -- 实战某电影网(lxml库版)
    0x01安装lxml库文件pip3installlxml0x02初始化字符串1、通过HTML类初始化字符串fromlxmlimportetreeimportrequestsurl="https://www.dandanzan10.top/dianying/i......
  • 爬虫学习笔记 -- requests库基础
    0x01requests库安装1、通过控制台运行下面代码pip3installrequests2、通过Pycharm安装,点击+号,搜索requests,然后点击安装 0x02GET请求1、普通请求importrequestsurl="h......
  • 爬虫学习笔记 -- 正则表达式
    0x01match1、从头开始匹配,只能匹配一次importrestr="1a2b3c456d7e890f"res=re.match('\d+',str)print(res.group())运行结果:12、通用匹配符.*?importrestr="11a2b3c456d7e......
  • 火山中文编程 -- 封装信息框API
     ......
  • OD修改软件
    一、打开软件,查看正常运行的程序二、打开OD,拖入要调试的程序三、分析汇编代码title是"Helloworld",内存地址是0x00403000四、数据窗口跳转到该地址,快捷键ctrl+G五、修改数据......
  • JS逆向 -- 本地调试
    一、通过Fiddler抓包,找到要替换的JS文件,这里要替换的事md5.js二、新建一个md5.js文件,内容为包里的内容,为了区分,我们给他多加一个变量三、将该包,拖到AutoResponder选项卡,该打......
  • JS逆向 -- HOOK关键数据
    一、安装油猴插件​​https://ext.se.360.cn/webstore/search/tampermonkey​​二、添加新脚本三、常用代码1、name:该脚本的名字2、match:要hook的网站:一般填写http://*/*3、......
  • 子域名收集 -- Anubis
    今天给大家介绍一款子域名收集软件Anubis下载地址:https://github.com/jonluca/Anubis一、环境kalipython3二、安装过程:1、复制到本地安装包gitclonehttps://github.co......