首页 > 其他分享 >多线程爬取wallhaven

多线程爬取wallhaven

时间:2022-09-27 22:15:10浏览次数:85  
标签:img url self list wallhaven 爬取 多线程 page 图片

前言

最近整理自己的项目时,发现之前自己写的爬取wallhaven网站顿时有来的兴趣决定再写一遍来回顾自己以前学的知识
网站地址:"https://wallhaven.cc/"

1. url参数结构

image

从url地址我们发现为"https://wallhaven.cc/search?categories=111&purity=110&sorting=date_added&order=desc&page=2",这段url里面代用几个参数分别为,categories,purit,sorting。而这几个参数分别对应界面的这几个按钮
image

2. 查看网页结构

按f12键查找到要爬取的图片目录
image
通过查看代码发现该图片只是一张预览图片,分辨率仅为300*200,明显不符合要求。
观察下方a标签
image
发现这个class为preview的标签中存在个href地址链接到该高清图片的正确地址,点击该地址跳转

image
通过查看代码发现这才是我们需要的图片,找到了我们要的图片链接,在img标签中。

image

通过以上观察我们可以知道,我们的代码编写思路

  1. 获取到这一页所有图片的url地址
  2. 通过解析获取到详情页网页的图片
  3. 请求到详情页网页图片进行下载

3. 开始爬取图片

3.1 初始化

import requests
url = "https://wallhaven.cc/search?categories=011&purity=010&sorting=date_added&order=desc&page=2"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
}

class Spider:
	# 初始化数据
	def __init__(self, url, header, cookie):
		self.user_url = url
		self.header = header
		self.img_list_url = [] # 存放一页的所有图片地址
		self.num = 0  # 计数爬取了多少张图片

3.2 获取到这一页所有图片的url地址

我们在Spider类中定义一个res方法来爬取这一页的所有url地址,并且利用列表推导式将所有的url地址存放到list_img列表中以便我们后续使用

# 获取某一页要下载的图片所有链接
def res(self):
	response = requests.get(self.user_url, headers=self.header).text
	soup = BeautifulSoup(response, "html.parser")
	img_href = soup.select(".thumb-listing-page > ul > li  a[href]")
	list_img = [i.get("href") for i in img_href]  # 所有的图片的href
	print(list_img)
	print("一共", len(list_img), "图片")
	return list_img

image

3.3 通过解析获取到详情页网页的图片

通过res方法我们得到了一页的所有图片链接,这时我们获取详情页的图片地址并把它存放到img_list_url列表中以便我们后续开启多进程进行下载。但是我们这些书写会出现拿不到详细页的图片地址从而导致下标越界从而报错,所以可以优化一下代码

# 获取详情页图片地址
def detail_page(self, list_img):
	# 遍历获取详情页图片地址
	for item in list_img:
		detail_page = requests.get(item, headers=self.header, cookies=self.cookie).text
		soup = BeautifulSoup(detail_page, "html.parser")
		img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
		self.img_list_url.append(img_url)
		print(img_url, "添加成功")
		self.error_img_url(item)
		return self.img_list_url

可以写出这样

# 获取详情页图片地址
def detail_page(self, list_img):
# 遍历获取详情页图片地址
for item in list_img:
	detail_page = requests.get(item, headers=self.header, cookies=self.cookie).text
	soup = BeautifulSoup(detail_page, "html.parser")
	try:  # 访问过快会爬取不到详情页图片地址,则出现一个空列表从而导致下标越界
		img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
		self.img_list_url.append(img_url)
		print(img_url, "添加成功")
	except IndexError:  # 出现下标越界调用error_img_url方法
		self.error_img_url(item)
		return self.img_list_url

# 处理获取失败的图片地址
def error_img_url(self, url):
	print(url, "没有获取到现在重新获取")
	# 休眠2秒重新发送请求
	time.sleep(2)
	detail_page = requests.get(url, headers=self.header, cookies=self.cookie).text
	soup = BeautifulSoup(detail_page, "html.parser")
	try:
		img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
		self.img_list_url.append(img_url)
		print(img_url, "获取成功")
	except IndexError:  # 如果还没有获取到图片地址那么递归调用
		self.error_img_url(url)

3.4 请求到详情页网页图片进行下载

通过前面我们已经获取下载图片地址,我们发现地址为"https://w.wallhaven.cc/full/zy/wallhaven-zyg5kw.jpg "完全可以使用split('/')进行切片获取最后一段用来命名图片名称

# 图片下载
def download_images(self, img_url):
	if img_url is not None:
		img_name = img_url.split("/")[-1]  # 图片名称
		img = requests.get(img_url, headers=self.header).content
		with open(img_path + "/" + img_name, "wb") as fp:
			fp.write(img)
			print(img_name, "download over~")
			self.num += 1

3.5 main方法

这时候我们编写主函数就可以下载了

if __name__ == '__main__':
    img_path = "./wall"
    if not os.path.exists(img_path):
        os.mkdir(img_path)
    # 开始爬取
    start = time.time()
    spider = Spider(url, headers, cookie)
    list_img = spider.res()

    img_list_url = spider.detail_page(list_img)

    # 开启5个进程下载图片
    pool = Pool(5)
    pool.map(spider.download_images, img_list_url)

    end = time.time()
    print("下载图片数量:", Spider.images_count)
    print(end - start)

4. 完整代码

import os
import time
from multiprocessing.dummy import Pool
import requests
from bs4 import BeautifulSoup

url = "https://wallhaven.cc/search?categories=011&purity=010&sorting=date_added&order=desc&page=2"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.56',
}


class Spider:
    # 初始化数据
    def __init__(self, url, header, cookie):
        self.user_url = url
        self.header = header
        self.cookie = cookie
        self.img_list_url = []  # 存放一页的所有图片地址
        self.num = 0  # 计数爬取了多少张图片

    # 获取某一页要下载的图片所有链接
    def res(self):
        response = requests.get(self.user_url, headers=self.header).text
        soup = BeautifulSoup(response, "html.parser")
        img_href = soup.select(".thumb-listing-page > ul > li  a[href]")
        list_img = [i.get("href") for i in img_href]  # 所有的图片的href
        print(list_img)
        print("一共", len(list_img), "图片")
        return list_img

    # 获取详情页图片地址
    def detail_page(self, list_img):
        # 遍历获取详情页图片地址
        for item in list_img:
            detail_page = requests.get(item, headers=self.header).text
            soup = BeautifulSoup(detail_page, "html.parser")
            try:  # 访问过快会爬取不到详情页图片地址,则出现一个空列表从而导致下标越界
                img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
                self.img_list_url.append(img_url)
                print(img_url, "添加成功")
            except IndexError:  # 出现下标越界调用error_img_url方法
                self.error_img_url(item)
        return self.img_list_url

    # 处理获取失败的图片地址
    def error_img_url(self, url):
        print(url, "没有获取到现在重新获取")
        # 休眠2秒重新发送请求
        time.sleep(2)
        detail_page = requests.get(url, headers=self.header).text
        soup = BeautifulSoup(detail_page, "html.parser")
        try:
            img_url = soup.select("#showcase > div.scrollbox > img[src]")[0]["src"]
            self.img_list_url.append(img_url)
            print(img_url, "获取成功")
        except IndexError:  # 如果还没有获取到图片地址那么递归调用
            self.error_img_url(url)

    # 图片下载
    def download_images(self, img_url):
        if img_url is not None:
            img_name = img_url.split("/")[-1]  # 图片名字
            img = requests.get(img_url, headers=self.header).content
            with open(img_path + "/" + img_name, "wb") as fp:
                fp.write(img)
            print(img_name, "download over~")
            self.num += 1

    def images_count(self):
        print(self.num)


if __name__ == '__main__':
    img_path = "./wall"
    if not os.path.exists(img_path):
        os.mkdir(img_path)
    # 开始爬取
    start = time.time()
    spider = Spider(url, headers, cookie)
    list_img = spider.res()

    img_list_url = spider.detail_page(list_img)

    # 开启5个进程下载图片
    pool = Pool(5)
    pool.map(spider.download_images, img_list_url)

    end = time.time()
    print("下载图片数量:", Spider.images_count)
    print(end - start)

5. 添加Cookie

如果有wallhaven用户的想爬取用户能爬取的图片需要添加Cookie
image

# 用户cookie
cookie = {
    "_pk_id.1.01b8": "xxxx",
    "_pk_ses.1.01b8": "xxxx",
    "remember_web_59ba36addc2b2f9401580f014c7f58ea4e30989d": "xxx",
    "XSRF-TOKEN": "xxxx",
    "wallhaven_session": "xxxx"
}

请求的时候带上cookie即可

标签:img,url,self,list,wallhaven,爬取,多线程,page,图片
From: https://www.cnblogs.com/lengyingmofeng/p/16736180.html

相关文章

  • Java多线程内存读写 —— 内存屏障的理解
    在现代计算机中,CPU往往都是多核的,而由于每个CPUCore中都有自己的高速缓存Cache,因此就会造成内存数据读写的不一致性,表现为 ​​指令乱序​​​ 与 ​​不可见性​​​ ......
  • 多线程分时系统线程安全问题-synchronize
    问题多线程分时系统是存在线程安全问题的,如下例子:两个线程分别对同一个变量(初始值=0)做循环自增和自减操作各50000次,观察结果,并不等于初始值。publicclass分时系统线......
  • 多线程详解
    线程简介任务、进程、线程、多线程Process进程Thread线程线程就是独立的执行路径在程序运行时,即使没有自己创建线程,后台也会有多个线程,如:主线程,gc线程;main()称之为......
  • 多线程环境下安全的集合
    多线程环境下安全的集合List/***并发修改异常多个线程同时操作一个不安全的集合*<p>*CopyOnWriteArrayList写时复制技术*add方法会先复制一个新数组对新......
  • C++多线程编程之【线程管理】
    1.如何启动线程?构建std::thread对象即可。直接传函数名(地址)创建一个类并创建伪函数。构建对象(实例化),将对象作为参数传入thread对象实例化。2.为什么要等待线程?首先......
  • 多线程
    1.线程和进程区别线程的划分尺度小于进程,这使多线程程序拥有高并发性,进程在运行时各内存单元之间相互独立,线程之间内存共享,这使多线程拥有更好的性能和用户体验。线程......
  • 【转载】Python -- 多进程、多线程 的基本使用
    https://www.cnblogs.com/jiyu-hlzy/p/15948408.html 单进程单线程importtimedefproduction():"""间隔一秒,模拟一秒生产一个任务,生产10个任务:ret......
  • Java多线程
    join()方法使用:【已经开了3个线程ABC,要求线程A在线程B的前面执行,线程B在线程C的前面执行】https://blog.csdn.net/zds448588952/article/details/99613648......
  • 多线程——Robyn编程学习(Java)
    多线程的作用能够创建多个线程,此外线程可以体现程序的动态性,提高效率,在抢票以及各种游戏之中具有非常重要的作用。(线程的魅力在坦克大战中体现的淋漓尽致)多线程的知识体......
  • 多线程批量删除后再查询所遇到的坑
    问题:以前对于多线程异步执行没有细想,认为已经采用的countdownlatch,保证了任务全部执行完毕。实际上,并不是我认为的那样。首先,一个方法是多线程异步批量删除数据,另一个方......