首页 > 其他分享 >批量爬取多分页多张图片

批量爬取多分页多张图片

时间:2023-10-01 17:12:40浏览次数:27  
标签:tupian 分页 批量 url request 爬取 https print com

import urllib.request
from lxml import etree

# https://sc.chinaz.com/tupian/siwameinvtupian.html
url = 'https://sc.chinaz.com/tupian/siwameinvtupian_2.html'

def getTenGirlPhote(page):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.62',
    }
    url = ''
    if(page == 1):
        url = 'https://sc.chinaz.com/tupian/siwameinvtupian.html'
    else:
        url = 'https://sc.chinaz.com/tupian/siwameinvtupian_' + str(page) + '.html'

    request = urllib.request.Request(url=url, headers=headers)
    res = urllib.request.urlopen(request)
    content = res.read().decode('utf-8')
    #print(content)
    tree = etree.HTML(content)
    src = tree.xpath('//div[@class="tupian-list com-img-txt-list"]/div/img//@data-original')
    name = tree.xpath('//div[@class="tupian-list com-img-txt-list"]/div/img//@alt')
    # print(name)

    print(len(src))
    for i in range(len(src)):
        # 0-39
        #print(i)
        imgUrl = 'https:' + src[i]
        print(imgUrl)
        urllib.request.urlretrieve(imgUrl,'./imgs/' + name[i] + '.jpg')

for i in range(1,11):
    getTenGirlPhote(i)

  

标签:tupian,分页,批量,url,request,爬取,https,print,com
From: https://www.cnblogs.com/sgj191024/p/17739007.html

相关文章

  • 爬取豆瓣电影,保存到json文件中
    importurllib.requesturl='https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20'headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537......
  • python爬虫请求头键值对批量加引号
    原始数据:from:ento:zhquery:lovetranstype:realtimesimple_means_flag:3sign:198772.518981token:1b434ed1e595135ac1b2959f4430a51fdomain:commonts:1696058611509使用notepad++粘贴数据然后Ctrl+H,勾选正则表达式,第一行为(.*):(.*)第二行为'$1':......
  • 为什么会变成这样呢? #6(奇偶分页问题)
    现在你有一个长度为\(n\)的01串\(s\),每次操作你可以选择一个后缀并将其中的0和1互换,求将其完全变为0所需要的最小操作次数和操作方法。期望复杂度:\(O(n)\)。lcw'slemma显然,对于任意一个后缀\([i,n]\),其要么被操作一次,要么不被操作,且操作顺序不影响。更进一步地,lcw......
  • 带您了解视频融合/视频监控平台EasyCVR分组批量绑定/取消设备功能
    EasyCVR平台是一款具备丰富灵活视频能力的安防视频监控与集中存储解决方案。该平台支持多种主流标准协议,包括国标GB28181、RTSP/Onvif、RTMP等,并且可以接入各种厂家的私有协议与SDK,例如海康Ehome、海大宇等设备的SDK。EasyCVR平台不仅具备传统安防视频监控的能力,还具备接入AI智能......
  • 零代码编程:用ChatGPT批量修改文件夹名称中的大小写
    一个文件夹下面有很多个子文件夹,要把文件夹中的大写数字全部重命名为小写数字,比如将二三四,改成:234在ChatGPT中输入提示词如下:你是一个Python编程专家,要完成一个文件夹重命名的任务。具体步骤如下:本地电脑“E:\PeppaPig小猪佩奇”文件夹下有很多个文件夹;获取所有文件夹标题名......
  • 零代码编程:用ChatGPT批量将多个文件夹中的视频转为音频
    有多个文件夹中的视频,都要批量转换成音频格式。转换完成后要删除视频。虽然现在已经有很多格式转换软件可以实现这个功能,但是需要一个个文件夹的操作,还要手动去删除视频。用ChatGPT来写一个批量自动操作程序吧:输入提示词如下:你是一个Python编程专家,要完成一个批量转换格式的任务,具......
  • 爬虫记录~(多线程爬取图片)
    使用Requests+Re库方法多线程爬取亚马逊商城商品图片,以关键词“书包”搜索页面的商品的图片,爬取0-2页面商品图片。关键词:多线程爬虫程序、商城网站的遍历,链接的查找和访问。巩固搜索接口和翻页处理。importrequestsfromfake_useragentimportUserAgentimportrefrommulti......
  • Python 批量合并csv文件
    importpandasaspdimportglobimportos#获取所有CSV文件的路径file_paths=glob.glob("C:\\Users\\Admin\\Desktop\\数据核对\\*.csv")#使用glob.glob函数获取指定目录下所有以.csv为扩展名的文件路径,并将结果存储在file_paths列表中print(file_paths)#打印出这......
  • 通过苍穹外卖学习分页查询
    ‍controller层/***员工分页查询*@paramemployeePageQueryDTO*@return*/@GetMapping("/page")@ApiOperation("员工分页查询")publicResult<PageResult>page(EmployeePageQueryDTOemployeePageQueryDTO){......
  • linux 中批量输出指定目录的磁盘占用和文件数目
     001、磁盘占用(base)[root@pc1test1]#lstest1test2test3(base)[root@pc1test1]#find$PWD-typed##查出所有目录/home/test1/home/test1/test1/home/test1/test1/test/home/test1/test2/home/test1/test3(base)[root@pc1test1]#find$PWD......