首页 > 其他分享 >数美验证码-空间推测-爬虫

数美验证码-空间推测-爬虫

时间:2024-04-26 23:23:45浏览次数:27  
标签:__ name url 数美 爬虫 验证码 dict time data

前言

因为要训练识别验证码的模型,需要爬取源数据。
如果需要其他的类型,自行修改

爬取结果
image

这边把图片跟文本命名一样的。

代码

import time
import json
import requests


def save_image_from_url(url, file_path):
    response = requests.get(url)
    with open(file_path, 'wb') as f:
        f.write(response.content)


if __name__ == '__main__':
    """
    @author: xXinG
    @dec:    爬取数美验证码空间 逻辑推理图片、文本
    @time: 2023/4/26 19:50
    """

    execute_count = 100  # 爬取条数

    start_time = time.time()
    for i in range(execute_count):
        url = "https://captcha1.fengkongcloud.cn/ca/v1/register"

        querys = {"callback": "0", "channel": "DEFAULT",
                  "captchaUuid": "20240426194937QdanEmbtwJrRaJwbdG", "rversion": "1.0.4", "lang": "zh-cn",
                  "data": "{}", "model": "spatial_select", "sdkver": "1.1.3", "organization": "d6tpAY1oV0Kv5jRSgxQr",
                  "appId": "default"}

        response = requests.request("GET", url, params=querys)
        data_str = response.text[2:-1]  # 去掉字符串开头的'0('和结尾的')'
        data_dict = json.loads(data_str)  # 将字符串转换为字典

        if data_dict['code'] == 1100:
            url = data_dict['detail']['bg']  # 图片url, 需要加上  https://castatic.fengkongcloud.cn/
            des = data_dict['detail']['order']  # 空间目标描述

            last_slash_index = url.rfind('/')
            jpg_start_index = url.find('.jpg')
            name = url[last_slash_index + 1:jpg_start_index]  # 图片命名

            save_image_from_url('https://castatic.fengkongcloud.cn' + data_dict['detail']['bg'],
                                './result/img/' + name + '.jpg')

            with open("./result/label/" + name + '.txt', "w", encoding="utf-8") as f:
                f.write(des[0])
            print("完成 -> " + name)

    end_time = time.time()
    print("总共用时: " + str(end_time - start_time) + "秒")

这边测试爬取100张
image

给大家看看训练好的模型 哈哈

image

标签:__,name,url,数美,爬虫,验证码,dict,time,data
From: https://www.cnblogs.com/xxing/p/18161058

相关文章

  • 百度贴吧帖子爬虫
    想把以前喜欢的帖子爬下来,代码存档于2024.4.26,不知道能用多久。importrequestsfromlxmlimportetree#移除链接、图片的标签defremoveTag(text):tree=etree.fromstring(text)forbadintree.xpath("//a"):bad.getparent().remove(bad)forba......
  • 爬虫
    requests官方中文文档:https://2.python-requests.org/zh_CN/latest/requests在爬虫中一般用于来处理网络请求#导入requests模块importrequests#尝试向baidu发起请求,获得来命名为r的response对象r=requests.get('https://www.baidu.com/')#返回请求状态码,200......
  • 爬虫 1(入门基础)
    爬虫1(入门基础)一、什么是爬虫通过编写代码,模拟正常用户使用浏览器的过程,使其能够在互联网自动进行数据抓取二、HTTP协议三、URL是什么URL:资源定位符,是用于完整地描述Internet上网页和其他资源的地址的一种标识方法四、Header请求头五、请求头参数的含义六、req......
  • 爬虫2(页面解析和数据提取)
    爬虫2(页面解析和数据提取)处理HTML文件,常用Xpath,先将HTML文件转换成XML文档,然后用Xpath查找HTML节点或元素。一、HTML与XML二、XPath1、XPath路径表达式三、Lxml库html=etree.HTML(text)#将字符串转换成HTML格式#print(etree.tostring(html))#补全HTMLres......
  • 爬虫 第二篇 纵观
    继上篇文章采集图片后,有朋友问采集就这么简单吗?当然NoNoNo!!!!获取数据的渠道多种多样,根据需求,可以从小程序、PC、h5、app、官方接口等等获取数据。当然你从别人的地方获取数据,别人哪儿能那么轻易的让你获取到数据呢!所以就出现了各种反爬!我简单总结了几种......对UA的检......
  • 爬虫js逆向(python调用js学习)
    首先介绍pyexecjs的使用PyExecJs是一个python库,用于在Python环境中执行javaScript代码。它实际上是对Execs库的Python封装,Execls本身是一个通用的JavaScript运行环境的抽象层。使用PyExecJs,你可以在Python中执行JavaScript代码,而无需启动一个完整的JavaScript解释器......
  • 股票数据爬虫
    东方财富网-数据中心——爬虫项目0x00起因MaMa看到别人有个软件,可以直接把一个网站上的数据全部爬进一个Excel里边,但是那个人不给这个软件,所以她怂恿我写一个。。。0x01需求千股千评_数据中心_东方财富网(eastmoney.com)对于里边的00~60开头的股票,把股票代码、涨......
  • python爬虫—学习笔记-4
    课堂内容:删除原导出文件的venv,pycham打开此文夹,重新创建本地虚拟编译器。安装依赖库,打开pycham终端输入pipinstall-ryilaiku.txt,安装依赖库中的库。继续安装bs4、lxml库,命令为:pipinstallbs4和pipinstalllxml。安装好后,pycham来到spiders目录下,新建Python......
  • 海南免税商城数据爬取(破解滑块验证码)
    1.python部分main.py#-*-coding:utf-8-*-#@Time:2024/4/1521:24#@Author:快乐的小猴子#@Version:#@Function:importsubprocessfromfunctoolsimportpartial#专门用来固定参数的subprocess.Popen=partial(subprocess.Popen,encoding="utf-8")im......
  • 使用pytesseract库识别图形验证码的简单案例
    importrequestsfromPILimportImageimportpytesseract#获取验证码图片url='http://jw.glutnn.cn/academic/getCaptcha.do?captchaCheckCode=0&random=0.20354331774429668'response=requests.get(url)#保存验证码图片withopen('captcha.png',&......