lxml案例~豆瓣版生日星空图片下载的源码

时间：2022-12-28 17:35:59浏览次数：68

标签：album douban www lxml res 图片下载源码 div com

有不少小伙伴反应，昨天更新的NASA的源码在运行的时候出错了，出现：

lxml案例~豆瓣版生日星空图片下载的源码_ide

其实小编当时也遇到了这个错误，当时去网上搜了下说是可能会和网络有问题，因为网站本身就是个国外的网站，后来增加了：

time.sleep(5)

可以暂时性的给解决了，但是在反复执行的时候还是存在上述问题，因此今天找了版替代的代码，爬取豆瓣上的图片集合。

首先让我们输入链接：

https://www.douban.com/photos/album/1872547715/

然后点击第二页，第三页，第四页，链接如下：

https://www.douban.com/photos/album/1872547715/?m_start=18

-------------------------------------------

https://www.douban.com/photos/album/1872547715/?m_start=36

-------------------------------------------

https://www.douban.com/photos/album/1872547715/?m_start=54

点到最后一页我们发现链接为：

https://www.douban.com/photos/album/1872547715/?m_start=360

从上可以推断出链接的地址规律为

https://www.douban.com/photos/album/1872547715/?m_start=(步长18)

那么可以推断出具体的链接地址为：

后面的参数我们可以写成：range(0,361,18)，

链接分析完毕，我们利用lxml查找元素：

lxml案例~豆瓣版生日星空图片下载的源码_创建目录_02

即可推断出标签获取为：

//*[@id="content"]/div[3]/div[1]/div[2]/div/a/img/@src

图片的名称同理可得：

//*[@id="content"]/div[3]/div[1]/div[2]/div/a/@title

接下来让我们进入编码环节：

import requests
from lxml import etree
import os
 
for i in range(0,361,18):
    #按照0 18 36  生成0-361
    headers = {
       "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"
    }    #设置伪装请求头
    url = "https://www.douban.com/photos/album/1872547715/?m_start=" + str(i)    #进行网址拼接
    res = requests.get(url,headers=headers).text    #获得网页数据的文本信息
    res_xpath = etree.HTML(res)    #转换为xpath格式
    pic_urls = res_xpath.xpath('//*[@id="content"]/div[3]/div[1]/div[2]/div/a/img/@src')    #获得图片网址
    titles = res_xpath.xpath('//*[@id="content"]/div[3]/div[1]/div[2]/div/a/@title')    #获得图片对应的日期
    # print(pic_urls)
    # print(titles)
    for pic_url,title in zip(pic_urls,titles):    #依次循环图片网址和对于日期
        res = requests.get(pic_url,headers=headers).content    #获得网址的二进制数据
        dir_name = "birthday"
        isExists = os.path.exists(dir_name)
        # 判断结果
        if not isExists:
            # 如果不存在则创建目录
            # 创建目录操作函数
            os.makedirs(dir_name)
        with open (dir_name+"/"+title+".jpg","wb") as f:     #新建一个jpg文件，用日期命名
            f.write(res)    #写入二进制数据
            print("下载成功！")   #保存完成！

右击运行，图片就下载在当前的birthday文件夹内了。

lxml案例~豆瓣版生日星空图片下载的源码_xml_03

以上就是今天给大家分享的内容，豆瓣版的NASA源码获取获取请在后台回复：豆瓣生日图片。更多精品教程请关注公众号spiderBy，回复“Python教程”，即可获取*智基础+就业班课程。

标签：album,douban,www,lxml,res,图片下载,源码,div,com
From： https://blog.51cto.com/u_15924937/5975832

Ubuntu 22.04 搭建编译Android源码环境
环境准备操作系统编译Android源码需要一个区分文件大小写的系统环境，一般使用Ubuntu，可以采用单独安装Ubuntu、虚拟机等形式。这里使用VMware虚拟机的形式，具体安装过程省略......
以太坊源码阅读---一笔交易从生到死（一） txpool
markdown太难写了记不住。跑到博客园来写写今年还好不是原地踏步的一年，最近在家办公工作转成半个区块链安全工程师（依旧不热爱这个行业，但是区块链技术还是挺有意思的......
互联网医院系统源码开发，互联网医院系统的发展趋势是怎样的呢？
为了缓解患者就医难的问题，很多医院建立了互联网医院系统，不但可以利用图文、视频等方式为患者提供咨询类的医疗服务，还可以应用线上诊断，开具处方，在线药店商城拿药，快递到家等等......
Vue3源码阅读梳理
简单代码例子const{createApp,defineComponent,computed,watch,ref,reactive,effect}=Vueconstapp=createApp({components:[],template:`<div......
修改内核源码绕过反调试检测（Android10）
一、Android反调试反调试在代码保护中扮演着非常重要的角色，虽然不能完全阻止攻击者，但是能加大攻击者的分析时间成本。目前绝大多数Androidapp都加固了,为了防......
解密随机数生成器（二）——从java源码看线性同余算法
RandomJava中的Random类生成的是伪随机数，使用的是48-bit的种子，然后调用一个linearcongruentialformula线性同余方程（DonaldKnuth的编程艺术的3.2.1节）如果两个Random实例使......
Python爬虫实战，requests+openpyxl模块，爬取小说数据并保存txt文档（附源码）
前言今天给大家介绍的是Python爬取小说数据并保存txt文档，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫，基......
沐雪多租宝商城源码从.NetCore3.1升级到.Net6的步骤
.Net6是继.NetCore3.1之后的有一LTS长期支持版本，我们一般会将.NetCore3.1项目直接升级到.Net6，网上有很多人说，需要先从.NetCore3.1升级到.Net5，再升级到.Net6，其实我觉得直接......
Spring AOP源码(二)：BeanDefinition的准备工作
在Spring容器中，要想创建AOP相关的对象就需要创建先准备好相关的beanDefinition信息，这里对于普通bean对象的beanDefinition准备不再赘述，仅介绍AOP的核心对象：AutoProxyCr......
Spring AOP源码(一)：源码分析示例
1、aop.xml配置文件1<?xmlversion="1.0"encoding="UTF-8"?>2<beansxmlns="http://www.springframework.org/schema/beans"3xmlns:xsi="http://www.w3.......

lxml案例~豆瓣版生日星空图片下载的源码

相关文章

赞助商

阅读排行