爬取彼岸网明星图片:
背景:彼岸网是一个大型的图片网站,上面有很多的图片,这次我们就来爬取彼岸网
第一步:
准备Python爬取准备前的各种库:
import requests
from lxml import etree
import os
import time
import random
没有上面库的,通过pip 命令去安装,例如:pip install 库名
下面我们就开始了:
我们先要拿到网页的一个响应数据:
def get_url():
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}
url='http://pic.netbian.com/4kmeinv/index.html'
resp=requests.get(url,headers=headers)
print(resp.text)
如果,上面这个样的话会出现乱码:
如图1:
我们在上面加一个编码格式就可以了:
resp.encoding = 'GBK'
彼岸网的编码格式是GBK
但是其他每个网站编码格式不一样,但是都在UTF-8或者GBK之间。
def get_url():
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}
url='http://pic.netbian.com/4kmeinv/index.html'
resp=requests.get(url,headers=headers)
resp.encoding = 'GBK'
print(resp.text)
如图2:
然后用xpath定位:
图3:
图4:
图5:
html = etree.HTML(resp.text)
img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
print(img_src)
img_name = html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
print(img_name)
我们通过上面的xpath成功定位到图片的地址,下面我们就通过地址拼接来找到图片地址:
img_src = ['http://pic.netbian.com' + x for x in img_src]
图6:
图7
下面是数据的持久化,也就是图片的储存:
path='彼岸明星图片'#图片保存文件夹
for src, name in zip(img_src,img_name):
img_content=requests.get(src,headers=headers).content#再次发起请求,请求图片的地址并且把图片转成二进制数据,使计算机可以进行储存
img_name=name+'.jpg'#增加图片的后缀名,方便以图片形式打开
if not os.path.exists(path):#用import os 库,进行文件夹的创建
os.mkdir(path)#如果图片保存文件夹没有就进行创建文件夹
with open(path+'./%s'%img_name,'wb') as f:#图片文件二进制形式存储
f.write(img_content)
print("正在下载:",img_name)
time.sleep(random.randint(1,2))#设置时间,防止网站反爬虫机制发现。
上面,我们是不是只能访问一页的数据,我们想爬取多页的数据怎么办呢?
我们通过观察网站信息分析发现:
图8
我们就来设置一下分页:
url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)
通过上面就可以设置分页
上面代码我们需要优化一下,下面是优化后的完整代码:
import requests
from lxml import etree
import os
import time
import random
path='彼岸明星图片'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}
def get_url(page):
url='http://pic.netbian.com/4kmeinv/index_{}.html'.format(page)
resp=requests.get(url,headers=headers)
resp.encoding = 'GBK'
response=resp.text
return response
def main(index):
html=etree.HTML(index)
img_src = html.xpath('//ul[@class="clearfix"]/li/a/img/@src')
#print(img_src)
img_src=['http://pic.netbian.com'+ x for x in img_src]
img_name=html.xpath('//ul[@class="clearfix"]/li/a/img/@alt')
#print(img_name)
for src, name in zip(img_src,img_name):
img_content=requests.get(src,headers=headers).content
img_name=name+'.jpg'
if not os.path.exists(path):
os.mkdir(path)
with open(path+'./%s'%img_name,'wb') as f:
f.write(img_content)
print("正在下载:",img_name)
time.sleep(random.randint(1,2))
if __name__ == '__main__':
ss=str(input('请输入你想要的图片:'))
a=int(input())
for page in range(1,a):#分页查询
index=get_url(page)
main(index)
效果:
图9:
标签:明星图片,src,name,img,url,resp,彼岸,爬取,headers From: https://blog.51cto.com/u_15870497/5848492