【转】如何利用Python爬虫爬取网页中图片(成功实现自动翻页至最后一页)

时间：2022-10-19 19:44:18浏览次数：78

标签：content 翻页 Python res self jpg next 爬取 url

【原文】https://blog.csdn.net/weixin_65423581/article/details/122533646

1.模块的使用

(1).random模块：

主要是为了产生随机数作为写入jpg的名称(这里其实可以用字典形式表示之后再提取图片主要内容作为不同jpg的名称)。

(2).requests模块:

通过请求获取网页数据。

(3)lxml模块:

主要用来从网页数据中通过Xpath方法查找自己想要的数据(这里etree会报错但是能正常使用不用管)。

2.主要爬虫思路
- (1).首先要有一个start_url作为第一次网页数据的获取
- (2).通过Xpath方法获取数据中jpg的URL
- (3).同时通过Xpath方法获取’下一页‘的URL作为next_url
- (4).进入循环
3.代码如下：

import random
import requests
from lxml import etree
class Jpgspirer:
    def __init__(self):
        self.header = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36',
            "cookie": "Hm_lvt_86200d30c9967d7eda64933a74748bac = 1642225685, 1642344194;t = 244406d180636c9c3bf6b1439e8d8351;r = 1418;Hm_lpvt_86200d30c9967d7eda64933a74748bac = 1642344258"
        }
 
    def res(self,start_url):#获取网页响应数据
        res=requests.post(start_url,headers=self.header)
        return res.content.decode()
 
    def maincontent(self,content):#获取jpg的url
        html=etree.HTML(content)#将html数据规范化便于查找
        ret=html.xpath('//div[@class=\"egeli_pic_li\"]//img/@src')#查找jpg-URL
        return ret
 
    def next_url(self,content):#获取下一页URL
        html=etree.HTML(content)#将数据规范化
        ret=html.xpath('//a[@class=\"next_p\"]/@href')#查找next_url
        if len(ret)>0:  #判断next_url是否存在,若不存在返回None值以便结束循环
            return ret[0]
        else:
            return None
    def save(self,jpglist):# 将获取到的每个jpg写入到当前文件夹
        for item in jpglist:
            filename = "{}.jpg"
            fname = filename.format(random.uniform(1, 1000))
            res = requests.get(item, headers=self.header)
            with open(fname,'wb') as file:
                file.write(res.content)
            print('保存成功')
 
    def run(self,start_url):   #实现主要逻辑
        content=self.res(start_url)
        jpg_list=self.maincontent(content)
        next_url=self.next_url(content)
        self.save(jpg_list)     #start_url数据获取并得到next_url
        while next_url!=None:  #进入循环
            content=self.res(next_url)
            jpg_list.extend(self.maincontent(content))
            next_url=self.next_url(content)
            self.save(jpg_list)
 
if __name__ == '__main__':
    Spider=Jpgspirer()
    Spider.run(' https://mm.enterdesk.com/')#传入start_url

标签：content,翻页,Python,res,self,jpg,next,爬取,url
From： https://www.cnblogs.com/aixiu/p/16807497.html

python爬取公网ip地址，再爬取天气预报信息可视化，输出到桌面屏幕上，再用random实现python
python爬取公网ip地址，再爬取天气预报信息可视化，输出到桌面屏幕上，再用random实现python定时随机更换壁纸帮队友引个流https://blog.csdn.net/xihuanlei520/article/det......
20、python模块包的使用、软件开发目录规范、常用内置模块
目录一、包的使用1、什么是包2、包的具体使用1、常规导入2、直接导入包名二、编程思想转变1、面条阶段2、函数阶段3、模块阶段三、软件目录开发规范1、bin2、conf3、core4......
python进阶之路17 包的使用、collections、time、random模块
包大白话:多个py文件的集合>>>:文件夹专业:内部含有__init__.py文件的文件夹(python2必须要求python3无所谓)包的具体使用虽然python3对包的要求降低了不需要__i......
软件开发目录规范、python常用内置模块
编程思想的转变1.面条版阶段所有的代码全部堆叠在一起。可以看成是直接将所有的数据放在C盘视频、音频、文本、图片2.函数版阶段根据功能的......
python下载站长素材免费简历模板（xpath）
importos.pathimportrequestsfromlxmlimportetreeif__name__=='__main__':ifnotos.path.exists('./jianli'):os.mkdir('./jianli')he......
Day4：Python基础：列表、元组的方法二
1、列表按切片修改List=['Wang',[1,2,3,4],'Liu','Xinyouyi','zhangsanfeng','王小二']List[0:2]='狗屎'print(List)----------------------------------[......
Python: Builder Pattern
DuBuilder.py#生成器模式BuilderPatternfrom__future__importannotationsfromabcimportABC,abstractmethodfromtypingimportAnyclassBuilder(ABC)......
python 可视化图表-折线图
1.代码部分"""基础折线图"""#导包frompyecharts.chartsimportLine#创建一个折线图对象line=Line()#给折线图对象添加x轴的数据line.add_xaxis(["中国","......
python 嵌入式打包【保姆级文图教程】
python嵌入式打包目录python嵌入式打包嵌入式解决了什么问题?什么是嵌入式？如何安装嵌入式?前往官网下载嵌入式解压并配置嵌入式设置如何安装新的模块如何运行嵌入式解......
python带你制作一个gequ下载器，海量gequ免费听
前言大家早好、午好、晚好吖~ 环境使用:Python3.8Pycharm安装python第三方模块:win+R输入cmd点击确定,输入安装命令pipinstall模块名(p......

【转】如何利用Python爬虫爬取网页中图片(成功实现自动翻页至最后一页)

相关文章

赞助商

阅读排行