图片爬虫程序几行代码轻松搞定

时间：2023-01-12 10:39:15浏览次数：45

标签：搞定 self 爬虫几行 href print path os find

新手在学习爬虫时，不管是思路还是相关教程新手都可以参照其他人方法，有对的地方也有错的的地方，比如有些方面不太理解，那么可以根据自身实力换成自己能理解的方式，最终代码能跑动能完成任务就可以了。

直接上代码：

#-*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import requests
import os,sys
import time
class mzitu():
    def allUrl(self,url): #获取图片页面所有连接
       
        html = self.request(url)
        htmlSoup = BeautifulSoup(html.text,'lxml').find('div',class_='all').find_all('a')
        for x in htmlSoup:
           
            title = x.get_text()
            href = x['href'] #获取套图地址
            name = x['href'].split("/")[-1]
            

            print '##################################'
            print        u"开始保存..."+name+u"的套图"
            print '##################################'        

                   
            time.sleep(3)

            path = name
            chPath = "E:\py\%s" %name

            self.mkdir(path)
            os.chdir(chPath)
            self.html(href)
    def html(self,href): #处理套图的页面地址
 
        html = self.request(href)
        hrefSoup = BeautifulSoup(html.text,'lxml').find('div',class_='pagenavi').find_all('span')[-2].get_text()
        for page in range(1 , int(hrefSoup) + 1):
            pageUrl = href+'/'+str(page) #href是套图的地址 hrefSoup则是套图的页面地址

            self.img(pageUrl)

    def img(self,pageUrl): #处理获取图片实际地址
        imgUrl = self.request(pageUrl)       
        imgSoup = BeautifulSoup(imgUrl.text,'lxml').find('div',class_='main-image').find('img')['src']
        self.save(imgSoup)
    def save(self,imgSoup): #下载保存图片
        print u"正在下载.."+imgSoup
        saveName = imgSoup.split("/")[-1]
        saveImg = self.request(imgSoup)
        f = open(saveName,'wb')
        f.write(saveImg.content)
        f.close()
    def mkdir(self,path): #创建文件夹

        path = path.strip()
        isExists = os.path.exists(os.path.join("E:\py", path))
        if not isExists:
            print(u"建了一个名字叫做" +path+ u"的文件夹！")
            os.makedirs(os.path.join("E:\py", path))
            return True
        else:
            print(u"名字叫做" +path+ u"的文件夹已经存在了！")

            return False        
    def request(self,url): #复用函数

        res = requests.get(url)
        return res

mzPic = mzitu()
mzPic.allUrl('http://www.mzitu.com/all')

===成果图====

图片爬虫程序几行代码轻松搞定_网页爬虫

标签：搞定,self,爬虫,几行,href,print,path,os,find
From： https://blog.51cto.com/u_13488918/6003635

Python爬虫-第三章-5-利用xpath爬取某八戒网相关词语公司的信息和价格
#DemoDescribe:数据解析xpathimportrequestsfromlxmlimportetreefromfake_useragentimportUserAgent'''companytitleprice'''#picType=input('输......
Python爬虫-第三章-4-利用BeautifulSoup模块爬取某网壁纸图库图片
思路：1.提取子页面链接2.访问子链接页面，提取下载地址3.访问下载地址下载内容到本地#DemoDescribe:数据解析bs4importtimeimportrequestsimportrandomimportstringfr......
【Python爬虫实战项目】Python爬虫批量下载相亲网站数据并保存本地（附源码）
前言今天给大家介绍的是Python爬虫批量下载相亲网站图片数据，在这里给需要的小伙伴们代码，并且给出一点小心得。首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬......
浅析爬虫代理报错的原因
相信很多朋友都使用过http，不管是因为业务需求还是个人需求，在使用代理IP的过程中总会碰到一些问题，比如连接不上，网速变慢，我们来看看出现这些问题的原因有哪些：1、服务器所处网......
测开学习一阶段（2）编程思维训练---爬虫小案例
基础版本流程：1.访问url2.转换格式，抓取数据3.格式化输出，保存到本地文件importrequestsfromlxmlimportetreeurl='http://ww......
Python网络爬虫get方法出现乱码的解决的三种方案
给大家祭出网络爬虫过程中三种中文乱码的处理方案，希望对大家的学习有所帮助。方案一将requests.get().text改为requests.get().content我们可以看到通过text()方法获取......
1.1-1.7 什么爬虫，爬虫的分类
-----------------------------------------------------------------------------------------------------------------------------------------------------------......
Socket爬虫：Python版
简述：较为底层的爬虫实现，用于了解爬虫底层实现的具体流程，现在各种好用的爬虫库（如requests，httpx...等）都是基于此进行封装的。PS：本文只作为实现请求的代码记录，基础部分不做过......
python爬虫如何爬取招聘数据
互联互通的时代，几乎任何行业有关的数据都可以在网络上查到，那么作为大数据公司，如何借用爬虫实现公开数据抓取数据就显得尤为重要，下面就是有关招聘信息等数据的抓取代码案例可......
Python爬虫
参考网址https://blog.csdn.net/qq_35709559/article/details/84859927爬虫示例:将百度的图片下载到本地'''1.找到图片的url2.发送请求获取响应3.保存图片(流媒体......

图片爬虫程序几行代码轻松搞定

相关文章

赞助商

阅读排行