爬取彼岸网明星图片

标签：明星图片 src name img url resp 彼岸爬取 headers

爬取彼岸网明星图片：

背景：彼岸网是一个大型的图片网站，上面有很多的图片，这次我们就来爬取彼岸网

第一步：

准备Python爬取准备前的各种库：

import requests
from lxml import etree
import os
import time
import random

没有上面库的，通过pip 命令去安装，例如：pip install 库名

下面我们就开始了：

我们先要拿到网页的一个响应数据：

def get_url():
  headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    url='http://pic.netbian.com/4kmeinv/index.html'
    resp=requests.get(url,headers=headers)
    print(resp.text)

如果，上面这个样的话会出现乱码：

如图1：

爬取彼岸网明星图片_html

我们在上面加一个编码格式就可以了：

resp.encoding = 'GBK'
彼岸网的编码格式是GBK
但是其他每个网站编码格式不一样，但是都在UTF-8或者GBK之间。

def get_url():
  headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    url='http://pic.netbian.com/4kmeinv/index.html'
    resp=requests.get(url,headers=headers)
    resp.encoding = 'GBK'
    print(resp.text)

如图2：

爬取彼岸网明星图片_.net_02

然后用xpath定位：

图3：

爬取彼岸网明星图片_.net_03

图4：

爬取彼岸网明星图片_.net_04

图5：

爬取彼岸网明星图片_数据_05

html = etree.HTML(resp.text)
img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
 print(img_src)
img_name = html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
print(img_name)

我们通过上面的xpath成功定位到图片的地址，下面我们就通过地址拼接来找到图片地址：

img_src = ['http://pic.netbian.com' + x for x in img_src]

图6：

爬取彼岸网明星图片_数据_06

图7

爬取彼岸网明星图片_.net_07

下面是数据的持久化，也就是图片的储存：

path='彼岸明星图片'#图片保存文件夹
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content#再次发起请求，请求图片的地址并且把图片转成二进制数据，使计算机可以进行储存
        img_name=name+'.jpg'#增加图片的后缀名，方便以图片形式打开
        if not os.path.exists(path):#用import os 库，进行文件夹的创建
            os.mkdir(path)#如果图片保存文件夹没有就进行创建文件夹
        with open(path+'./%s'%img_name,'wb') as f:#图片文件二进制形式存储
            f.write(img_content)
            print("正在下载：",img_name)
    time.sleep(random.randint(1,2))#设置时间，防止网站反爬虫机制发现。

上面，我们是不是只能访问一页的数据，我们想爬取多页的数据怎么办呢？

我们通过观察网站信息分析发现：

图8

爬取彼岸网明星图片_数据_08

我们就来设置一下分页：

url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)

通过上面就可以设置分页

上面代码我们需要优化一下，下面是优化后的完整代码：

import requests
from lxml import etree
import os
import time
import random
path='彼岸明星图片'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
def get_url(page):
    url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)
    resp=requests.get(url,headers=headers)
    resp.encoding = 'GBK'
    response=resp.text
    return response
def main(index):
    html=etree.HTML(index)
    img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
    #print(img_src)
    img_src=['http://pic.netbian.com'+ x for x in img_src]
    img_name=html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
    #print(img_name)
    for src, name in zip(img_src,img_name):
        img_content=requests.get(src,headers=headers).content
        img_name=name+'.jpg'
        if not os.path.exists(path):
            os.mkdir(path)
        with open(path+'./%s'%img_name,'wb') as f:
            f.write(img_content)
            print("正在下载：",img_name)
    time.sleep(random.randint(1,2))

if __name__ == '__main__':
   ss=str(input('请输入你想要的图片:'))
   a=int(input())
for page in range(1,a):#分页查询
    index=get_url(page)
    main(index)

效果：

图9：

爬取彼岸网明星图片_数据_09

标签：明星图片,src,name,img,url,resp,彼岸,爬取,headers
From： https://blog.51cto.com/u_15870497/5848492

爬取彼岸网明星图片：

相关文章

赞助商

阅读排行