首页 > 编程语言 >python爬虫之抓取彼岸壁纸

python爬虫之抓取彼岸壁纸

时间:2023-01-06 10:03:33浏览次数:32  
标签:www img python netbian list 爬虫 抓取 url print

喜欢壁纸的小伙伴经常苦恼于不能找到高清壁纸,网络上手动搜索费时费力,而且格式大小不适合电脑还会失真。那么我们该如何通过python爬虫实现高效快速爬取高清图片呢?下面的代码值得大家试一试。

# coding=utf-8

import os.path
import re
import requests

if not os.path.exists('photo/'):
os.mkdir('photo/')

url = 'http://www.netbian.com'
# http://www.netbian.com/index_2.htm

# http://www.netbian.com/desk/26344-1920x1080.htm
# http://www.netbian.com/desk/26345-1920x1080.htm
headers = {
'Host': 'www.netbian.com',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36',
'Upgrade-Insecure-Requests': '1',
'Cookie': '__yjs_duid=1_4535c561a20964f1ade88776981a0f411648389371877; Hm_lvt_0f461eb489c245a31c209d36e41fcc0f=1648389374,1648986956; Hm_lpvt_0f461eb489c245a31c209d36e41fcc0f=1648986956'
}
rsp = requests.get(url, headers=headers)
rsp.encoding = rsp.apparent_encoding
# print(rsp.text)

# <img src="http://img.netbian.com/file/2022/0402/small004425v1bwe1648831465.jpg" alt="lol英雄联盟九尾妖狐 命运之子 阿狸壁纸"/>
# <a href="(.*?)"title="(.*?)" target="_blank"><img src=".*?" alt=".*?" />
url_list = re.findall('<a href="(.*?)"title="(.*?)" target="_blank"><img src=".*?" alt=".*?" />', rsp.text)
# print(url_list)

for index in url_list:
url_lis = index[0]
title = index[1]
new_url = url + url_lis
# print(new_url)

rsp1 = requests.get(new_url)
rsp1.encoding = rsp1.apparent_encoding
img_list = re.findall('<a href=".*?" target="_blank"><img src="(.*?)" alt="(.*?)" title=".*?"></a>', rsp1.text)
# print(img_list)

for img in img_list:
img_url = img[0]
img_title = img[1]
content_data = requests.get(img_url).content

with open('photo/' + img_title + '.jpg', 'wb') as f:
f.write(content_data)
print(f'***************正在爬取{title}中****************')

标签:www,img,python,netbian,list,爬虫,抓取,url,print
From: https://blog.51cto.com/u_13488918/5992170

相关文章

  • 【团队效率提升】Python-PyWebIO介绍
    作者:京东零售关键Q&A快速了解PyWebIOQ:首先,什么是PyWebIO?A:PyWebIO提供了一系列命令式的交互函数,能够让咱们用只用Python就可以编写Web应用,不需要编写前端页面和后端接口......
  • Python网络编程之TCP服务端程序开发
     一、开发TCP服务端程序开发步骤回顾创建服务端端套接字对象绑定端口号设置监听等待接受客户端的连接请求接收数据发送数据关闭套接字二、socket类的介绍导入socket模......
  • 新手如何完成python视频爬虫
    作为新手小白学习爬虫,重要的就是实战经验,爬虫语言有多种,今天我们就通过python语言来做爬虫视频,下面的代码值得大家借鉴参考。#coding=utf-8importjsonimportos.pathimpo......
  • 【团队效率提升】Python-PyWebIO介绍
    作者:京东零售关键Q&A快速了解PyWebIOQ:首先,什么是PyWebIO?A:PyWebIO提供了一系列命令式的交互函数,能够让咱们用只用Python就可以编写Web应用,不需要编写前端页面和后端......
  • Python文件夹操作
    如何使用python新建文件夹以及递归创建文件夹os.mkdir使用python创建文件夹,通常使用os.mkdir方法,在使用这个方法时有几个小的细节需要注意,假设你的代码是这样编写的i......
  • Python中的注释和input函数的使用
    注释:一.最基础也是最常用的注释是#注释内容 快捷键ctrl+/ 适用多个代码集成工具都是这个快捷键Python使用井号#作为单行注释的符号,语法格式为:#注释内容从井号......
  • Python接口自动化系列- 读取 ini 配置文件05
    一、ini文件的组成一个ini文件是由多个section组成,每个section中以key=vlaue形式存储数据; 二、python读取ini文件数据1、导包importconfigparserconfig=configp......
  • 网易云爬虫+逆向分析
    本人属于爬虫小白级别,历经重重困难终于有了点感觉,对于网易云音乐的爬虫,想为大家分享一下自己的思路,有不足的地方还望各位大佬指出。当然,目前无法下载无损音乐,也无法下载vi......
  • Python 异步:完整教程
    Asyncio允许我们在Python中使用基于协程的并发异步编程。尽管asyncio已经在Python中使用多年,但它仍然是Python中最有趣但最令人沮丧的领域之一。对于新开发人员来......
  • [oeasy]python0037_终端_terminal_电传打字机_tty_shell_控制台_console_发展历史
    换行回车回忆上次内容​换行​​和​​回车​​是两回事​换行​对应字节​​0x0A​​Line-Feed水平不动垂直向上喂纸所以是​​feed​​​回车​对应字节​​0x0D......