爬虫之妹子图爬取

时间：2022-12-17 11:22:44浏览次数：54

标签：name get url pic 爬虫 num 图爬取妹子 page

宅男爬虫学习第一课！宅男们的福利来啦～

话不多说，直接上代码！

# -*- encoding: utf-8 -*-

# FUNCTION: Capture beauty picture

import requests

from bs4 import BeautifulSoup

import os

import time

url_list = ['http://www.mzitu.com/201024', 'http://www.mzitu.com/169782']  # interested beauties

headers = {

        'referer': 'https://www.mzitu.com/201024',

        'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 '

                      'Safari/537.36'

}

def get_page_num(url):

    response = requests.get(url, headers=headers)

    soup = BeautifulSoup(response.text, 'lxml')

    page_num = soup.find(class_='pagenavi').find_all('a')[-2].text

    name = soup.find(class_='currentpath').text.split()[-1]

    return page_num, name          # page_num 是字符串

def parse_page(url):

    """

    得到一页的图片

    :param url: 页面URL

    :return: 图片链接，图片名称

    """

    response = requests.get(url, headers=headers)

    soup = BeautifulSoup(response.text, 'lxml')

    pic_url = soup.find(class_='main-image').find('img')['src']

    pic_name = soup.find(class_='main-title').text

    return pic_url, pic_name

def get_pic(pic_url, pic_name, name):

    """下载并保存图片"""

    response = requests.get(pic_url, headers=headers, allow_redirects=False)

    filepath = '/home/f/crawler/Beauty/photo/' + name + '/' + pic_name + '.jpg'

    with open(filepath, 'wb') as f:

        f.write(response.content)

def main():

    for url in url_list:

        page_num, name = get_page_num(url)

        try:

            os.mkdir('/home/f/crawler/Beauty/photo/' + name)

        except FileExistsError:

            pass

        for page in range(1, int(page_num) + 1):  # range迭代

            page_url = url + '/' + str(page)

            print(page_url)

            pic_url, pic_name = parse_page(page_url)

            get_pic(pic_url, pic_name, name)

        time.sleep(2)

if __name__ == '__main__':

    main()

可以收藏一下，慢慢学习哈！

————————————————————————————————————————————

微信关注号：**爬虫王者**

标签：name,get,url,pic,爬虫,num,图爬取,妹子,page
From： https://www.cnblogs.com/crawler-king/p/16988749.html

Python爬虫实现：三连文章参与抽奖
......
python爬虫教程
python爬虫入门教程(一)：开始爬虫前的准备工作python爬虫入门教程(二)：开始一个简单的爬虫python爬虫入门教程(三)：淘女郎爬虫(接口解析|图片下载)......
如何少花钱维护爬虫ip
作为深耕在爬虫行业的程序员来说，保证代码稳定运行不仅需要深厚的爬虫功底，爬虫防反爬也是至关重要，为了能够有效高速爬取数据，必须要有一个稳定的爬虫ip池支撑。那么如何维护好......
【从零开始学爬虫】采集收视率排行数据
l采集网站【场景描述】采集收视率排行数据。【源网站介绍】收视率排行网提供收视率排行,收视率查询,电视剧收视率,综艺节目收视率和电视台收视率信息。【使用工具】......
Java广度优先爬虫示例
这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE......
信管专业对口工作岗位薪资数据统计与可视化案例（爬虫+数据预处理+数据可视化）
案例简介：本项目是一个针对数据统计与可视化课程的Presentation大作业项目1.数据采集智联招聘爬虫，截止于2022.12.15可正常使用。爬取网站（可以先自己搜一下关键词看看是......
Python爬虫爬取国家统计局2009年到2020年，统计用区划和城乡划分代码（省市区/县三级）并存
国家统计局->统计标准网址：http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/流程对统计标准的网站进行分层分级爬取代码importpymysqlfrombs4importBeaut......
Python爬虫采集搞笑段子示例
对于爬虫的用处不同的人有不同的看法，对于我而言，他是一门技能也是一门艺术，只有掌握其中的原理，才能让你体会到真正的快乐。下文就是我用python爬虫爬取搞笑段子的实例可以一起......
校园网断线重连，用爬虫来搞定！
前言hello，大家好，我是大赛哥(弟)，好久不见，甚是想念。最近因为有小需求研究了两登录的加密，也成功解密加密的参数，在这里给大家分享一波。前段时间，有个同学他实验室服务器校园网......
网络爬虫如何防止IP被限制?
互联网的飞速发展使得人们获取数据的方式也实现了飞跃，如今的数据获取已经摆脱了过去陈旧的依靠人力的方式，通过网络爬虫获取互联网数据已经成为了目前主流的数据获取方式。......

爬虫之妹子图爬取

相关文章

赞助商

阅读排行