中文验证码一直是识别的难题,首先他分类的种类很多,常见中文都有3500个,而且一般中文验证码都会有变形,导致每一个文字都需要大量训练样本。假设每一个汉字样本需要100个,100×3500=35万个样本,所以标记的样本数量巨大,训练周期长,成本高。
而且通常需要点选的文字数量很多,需要同时全对也是一件不容的事情。假设单个字的正确率是90%,假设需要点选4个汉字,全对的正确率就是0.9的4次方,正确率也只有65%。所以非常困难。
网易易盾又是难上加难,字体模糊,还有变形,有些颜色和背景颜色太过于接近,会导致识别率降低
下面我们就以网易易盾中文验证码为例提供了一个识别方案。只需要点击的中文大图,决定点击顺序的中文文本(页面上是文本)。如下图所示
大图样例:
文本样例:
"意苗印"
再配合下面的样例代码,就可以获得正确的识别结果
import base64
import requests
import datetime
from io import BytesIO
from PIL import Image, ImageDraw
t1 = datetime.datetime.now()
#PIL图片保存为base64编码
def PIL_base64(img, coding='utf-8'):
img_format = img.format
if img_format == None:
img_format = 'JPEG'
format_str = 'JPEG'
if 'png' == img_format.lower():
format_str = 'PNG'
if 'gif' == img_format.lower():
format_str = 'gif'
if img.mode == "P":
img = img.convert('RGB')
if img.mode == "RGBA":
format_str = 'PNG'
img_format = 'PNG'
output_buffer = BytesIO()
# img.save(output_buffer, format=format_str)
img.save(output_buffer, quality=100, format=format_str)
byte_data = output_buffer.getvalue()
base64_str = 'data:image/' + img_format.lower() + ';base64,' + base64.b64encode(byte_data).decode(coding)
# base64_str = base64.b64encode(byte_data).decode(coding)
return base64_str
# 加载图片
img1 = Image.open(r'E:\Python\lixin_project\OpenAPI接口测试\test_img\49-1.jpg')
# 图片转base64
img1_base64 = PIL_base64(img1)
# 验证码识别接口
url = "http://www.detayun.cn/openapi/verify_code_identify/"
data = {
# 用户的key
"key":"MNhRvR5V6ArzCXAw16yY",
# 验证码类型
"verify_idf_id":"49",
# 样例图片
"img_base64":img1_base64,
"words":"意苗印",
}
header = {"Content-Type": "application/json"}
# 发送请求调用接口
response = requests.post(url=url, json=data, headers=header)
# 获取响应数据,识别结果
print(response.text)
print("耗时:", datetime.datetime.now() - t1)
识别效果如下
想了解更多验证码识别请访问:得塔云
标签:点选,易盾,img,format,base64,验证码,识别方法,str,data From: https://blog.csdn.net/Dxy1239310216/article/details/139727692