wallhaven.cc网页爬取图片练习

时间：2022-12-17 21:57:51浏览次数：52

标签：img filepath cc wallhaven filename 爬取 result print

import os
import re

import requests

url = "https://wallhaven.cc/search?q=id:12757&sorting=random&ref=fp"
#反爬措施
#暂无


#获取网页内容
response = requests.get(url)
response.encoding = 'utf-8'
text = response.text


#正则表达式
zhengze = '(data-wallpaper-id\=\").*?(\")'
zhengze1 = '\"([0-9a-zA-Z].*)\"'
zhengze2 = '".{1-6}"'
zhengze3 = '"https://w.wallhaven.cc/full/.*?(.png|.jpg)"'
moshi = re.compile(zhengze)
moshi2 = re.compile(zhengze3)
pipeijieguos = moshi.finditer(text)
#无法下载png格式图片
# for pipeijieguo in pipeijieguos:
#     result = pipeijieguo.group(0)
#     print(result)
#     filename = result[19:25]
#     id2 = filename[:2]
#     src = "https://w.wallhaven.cc/full/"+id2+"/wallhaven-"+filename+".jpg"
#     print(src)
#     filepath = f'img/{filename}.jpg'
#     if os.path.exists(filepath):
#         print(f"{filepath}已经存在了，不需要下载")
#         continue
#     bts = requests.get(src).content
#     img = open(filepath,'wb')
#     img.write(bts)
#     img.close()
#     print(f"{filepath}下载完成")
for pipeijieguo in pipeijieguos:
    result = pipeijieguo.group(0)
    # print(result)
    filename = result[19:result.__len__()-1]
    # print(filename)
    #获取子网站内容
    url2 = "https://wallhaven.cc/w/"+filename
    # print(url2)
    response2 = requests.get(url2)
    response2.encoding = 'utf-8'
    text2 = response2.text
    # print(text2)
    pipeijieguos2 = moshi2.finditer(text2)
    for pipeijieguo2 in pipeijieguos2:
        result2 = pipeijieguo2.group(0)
        src = result2.replace('"','')

        name = src[41:51]
        print(name)
        filepath = f'img/{name}'
        if os.path.exists(filepath):
            print(f"{filepath}已经存在了，不需要下载")
            continue
        bts = requests.get(src).content
        img = open(filepath,'wb')
        img.write(bts)
        img.close()
        print(f"{filepath}下载完成")

标签：img,filepath,cc,wallhaven,filename,爬取,result,print
From： https://www.cnblogs.com/creeperrr/p/16989589.html

maven fmpp+javacc 集成使用简单说明
dremio以及apachecalcite使用到fmpp+javacc进行代码生成处理，以下是一个简单的集成测试fmpp的作用fmpp实际上是包装了freemarker，提供了cli以及javaapi可以方便的......
帝国cms 前后台ip检测函数eCheckAccessIp()
eCheckAccessIp()函数：eCheckAccessIp()功能：帝国CMS检测登陆及访问的ip地址是否允许函数位置：/e/class/connect.php版本：7.2（3463行） ysCheckBanIp($ecms=0) $ecms:如果不为0......
ACCESS_REFUSED - Login was refused using authentication mechanism PLAIN. For det
出现这个错误表示rabbiMQ拒绝使用普通身份验证机制拒绝登录，解决的方法很简单解决办法在rabbitMq的后台创建一个不普通的用户就好了，具体步骤如下：进入admin界面，添加一个......
爬虫之妹子图爬取
宅男爬虫学习第一课！宅男们的福利来啦～话不多说，直接上代码！ #-*-encoding:utf-8-*-#FUNCTION:Capturebeautypictureimportrequestsfrombs4importB......
【Azure 存储服务】Azure Storage Account Queue中因数据格式无法处理而在一个小时内
问题描述在从StorageAccount队列中获取数据(Queue)，在门户中，明显看见有数据，但是通过消费端代码去获取的时候，就是无法获取到有效数据的情况。获取消息的代码如下： ......
【五期邵润东】CCF-A(S&P'22)SHADEWATCHER: Recommendation-guided Cyber Threat Anal
Zeng,Jun,etal."SHADEWATCHER:Recommendation-guidedCyberThreatAnalysisusingSystemAuditRecords."2022IEEESymposiumonSecurityandPrivacy(SP).IE......
搭建本地yum源+gcc
前言虽然使用rpm包安装比较简单、快速，但是在功能上存在局限性，所以使用源码包安装。使用源码编译的方式安装软件，服务器上需安装开发环境，针对本服务器的版本，需安装gcc。而不搭......
【五期杨志】CCF-A(NeurIPS’21) VATT: Transformers for Multimodal Self-Supervised
Akbari,Hassan,etal."Vatt:Transformersformultimodalself-supervisedlearningfromrawvideo,audioandtext."AdvancesinNeuralInformationProcessing......
美国无人机FCC-ID认证详情
什么是FCCID认证？ FCC-ID是美国强制性FCC认证模式的其中一种，适用于无线产品。具备无线发射频率的产品如：蓝牙设备，WiFi设备，无线**设备，无线电接收和传输设备、电话，电脑等，都......
python 爬取国家统计局官网的统计用区划和城乡划分代码发现了惊天秘密!!!附python
国家统计局官网的统计用区划和城乡划分代码地址 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/最新数据是2021年的 http://www.stats.gov.cn/tjsj/tjbz/......

wallhaven.cc网页爬取图片练习

相关文章

赞助商

阅读排行