首页 > 其他分享 >爬虫之妹子图爬取

爬虫之妹子图爬取

时间:2022-12-17 11:22:44浏览次数:43  
标签:name get url pic 爬虫 num 图爬取 妹子 page

宅男爬虫学习第一课! 宅男们的福利来啦~ 

话不多说,直接上代码!

 

# -*- encoding: utf-8 -*-

# FUNCTION: Capture beauty picture

import requests

from bs4 import BeautifulSoup

import os

import time

url_list = ['http://www.mzitu.com/201024', 'http://www.mzitu.com/169782']  # interested beauties

headers = {

        'referer': 'https://www.mzitu.com/201024',

        'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 '

                      'Safari/537.36'

}

def get_page_num(url):

    response = requests.get(url, headers=headers)

    soup = BeautifulSoup(response.text, 'lxml')

    page_num = soup.find(class_='pagenavi').find_all('a')[-2].text

    name = soup.find(class_='currentpath').text.split()[-1]

    return page_num, name          # page_num 是字符串

def parse_page(url):

    """

    得到一页的图片

    :param url: 页面URL

    :return: 图片链接,图片名称

    """

    response = requests.get(url, headers=headers)

    soup = BeautifulSoup(response.text, 'lxml')

    pic_url = soup.find(class_='main-image').find('img')['src']

    pic_name = soup.find(class_='main-title').text

    return pic_url, pic_name

def get_pic(pic_url, pic_name, name):

    """下载并保存图片"""

    response = requests.get(pic_url, headers=headers, allow_redirects=False)

    filepath = '/home/f/crawler/Beauty/photo/' + name + '/' + pic_name + '.jpg'

    with open(filepath, 'wb') as f:

        f.write(response.content)

def main():

    for url in url_list:

        page_num, name = get_page_num(url)

        try:

            os.mkdir('/home/f/crawler/Beauty/photo/' + name)

        except FileExistsError:

            pass

        for page in range(1, int(page_num) + 1):  # range迭代

            page_url = url + '/' + str(page)

            print(page_url)

            pic_url, pic_name = parse_page(page_url)

            get_pic(pic_url, pic_name, name)

        time.sleep(2)

if __name__ == '__main__':

    main()

  

 

可以收藏一下,慢慢学习哈!

 


 
 

 

————————————————————————————————————————————

微信关注号:**爬虫王者**


 

标签:name,get,url,pic,爬虫,num,图爬取,妹子,page
From: https://www.cnblogs.com/crawler-king/p/16988749.html

相关文章

  • Python爬虫实现:三连文章参与抽奖
    ......
  • python爬虫教程
    ​​python爬虫入门教程(一):开始爬虫前的准备工作​​​​python爬虫入门教程(二):开始一个简单的爬虫​​​​python爬虫入门教程(三):淘女郎爬虫(接口解析|图片下载)​......
  • 如何少花钱维护爬虫ip
    作为深耕在爬虫行业的程序员来说,保证代码稳定运行不仅需要深厚的爬虫功底,爬虫防反爬也是至关重要,为了能够有效高速爬取数据,必须要有一个稳定的爬虫ip池支撑。那么如何维护好......
  • 【从零开始学爬虫】采集收视率排行数据
    l采集网站​【场景描述】采集收视率排行数据。【源网站介绍】收视率排行网提供收视率排行,收视率查询,电视剧收视率,综艺节目收视率和电视台收视率信息。【使用工具】......
  • Java广度优先爬虫示例
    这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE......
  • 信管专业对口工作岗位薪资 数据统计与可视化案例(爬虫+数据预处理+数据可视化)
    案例简介:本项目是一个针对数据统计与可视化课程的Presentation大作业项目1.数据采集智联招聘爬虫,截止于2022.12.15可正常使用。爬取网站(可以先自己搜一下关键词看看是......
  • Python爬虫爬取国家统计局2009年到2020年,统计用区划和城乡划分代码(省市区/县三级)并存
    国家统计局->统计标准网址:​​http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/​​流程对统计标准的网站进行分层分级爬取  代码importpymysqlfrombs4importBeaut......
  • Python爬虫采集搞笑段子示例
    对于爬虫的用处不同的人有不同的看法,对于我而言,他是一门技能也是一门艺术,只有掌握其中的原理,才能让你体会到真正的快乐。下文就是我用python爬虫爬取搞笑段子的实例可以一起......
  • 校园网断线重连,用爬虫来搞定!
    前言hello,大家好,我是大赛哥(弟),好久不见,甚是想念。最近因为有小需求研究了两登录的加密,也成功解密加密的参数,在这里给大家分享一波。前段时间,有个同学他实验室服务器校园网......
  • 网络爬虫如何防止IP被限制?
    互联网的飞速发展使得人们获取数据的方式也实现了飞跃,如今的数据获取已经摆脱了过去陈旧的依靠人力的方式,通过网络爬虫获取互联网数据已经成为了目前主流的数据获取方式。​......