首页 > 编程语言 >python爬虫入门教程:爬取网页图片

python爬虫入门教程:爬取网页图片

时间:2022-09-28 13:34:52浏览次数:81  
标签:re python 入门教程 爬虫 爬取 headers requests response

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

 

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

import requests //用于请求网页
import re  //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

 

 

 

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

 

编写爬虫程序

 首先肯定要通过python访问这个网站,代码如下:
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)  //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

 

 

 

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

 

 

 

 然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = '<img src="(.*?)" alt="(.*?)" width="160" height="120">'

 

 像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

 

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

   
 
 

程序代码

import requests
import re
import os
 
image = '表情包'
if not os.path.exists(image):
    os.mkdir(image)
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'
print(response.request.headers)
print(response.status_code)
t = '<img src="(.*?)" alt="(.*?)" width="160" height="120">'
result = re.findall(t, response.text)
for img in result:
    print(img)
    res = requests.get(img[0])
    print(res.status_code)
    s = img[0].split('.')[-1]  #截取图片后缀,得到表情包格式,如jpg ,gif
    with open(image + '/' + img[1] + '.' + s, mode='wb') as file:
        file.write(res.content)

最后结果就是这个样子:

 

 

 

标签:re,python,入门教程,爬虫,爬取,headers,requests,response
From: https://www.cnblogs.com/tuixiulaozhou/p/16734851.html

相关文章

  • 在Python使用Win32api接口实现后台截图
    1#对后台窗口截图2importwin32gui,win32ui,win32con3importcv24importnumpyasnp56#获取后台窗口的句柄,注意后台窗口不能最小化7hWnd=win32......
  • Python自动化办公:让程序自动分析数据制作报表,并发送邮箱
    序言作为数据分析师,我们需要经常制作统计分析图表。但是报表太多的时候往往需要花费我们大部分时间去制作报表。这耽误了我们利用大量的时间去进行数据分析。但是作为......
  • python 线性代数:解多元一次方程
    因为在程序化交易策略中使用了网格算法进行交易,因为在网格中想设置动态资源大小的问题,所以就想到使用抛物线的分布方法来对网格资金配置进行分配。比如我的网格最大值设置......
  • python装饰器
    1.1python装饰器装饰器(Decorators)是Python的一个重要部分。简单地说:他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短。python的装饰器本质上是一个P......
  • python使用有道翻译api请求
    #!/usr/bin/python#-*-coding:utf-8-*- #coding=utf-8 importos,sysimportjsonimportimporthttplibkey='这里写上你在有道翻译api网站上得到的的apikey'keyfrom......
  • 17、嵌入式中将(Android)手机转作为嵌入式的摄像头和终端使用(Opencv和C++Python支持)
    因为囊中羞涩,所以想把手机转换成摄像头和屏幕作为嵌入式的数据采集模块和终端显示界面;首先PC端需要安装opencv,自行百度~~~Android手机需要安装APP链接:https://pan.baidu.com/s......
  • 28、Python使用pyecharts绘制动态图
    基本思想:使用Python的pyecharts包进行中国疫情的动态图绘制;链接:https://pan.baidu.com/s/15oaBrsSGL_YNikRlwwaZZw 提取码:c460 复制这段内容后打开百度网盘手机App,操作......
  • Python GUI编程各种实现的对比(转)
    从 Python 语言的诞生之日起,就有许多优秀的 GUI 工具集整合到 Python 当中,这些优秀的 GUI 工具集,使得 Python 也可以在图形界面编程领域当中大展身手,由于 Python......
  • python添加模块路径的三种方法
    之前对macos系统自带的python进行了升级,结果发现新安装的python的site-packages目录并没有加到python的系统路径中,所以在使用其他库时发现出现了缺少模块的错误。查看pyt......
  • 使用Python将TXT文件提取到Excel表格当中
    importrowasrowimportxlwtdefwriteinexcel():f=open('bZhanRank.txt','r',encoding='utf-8')#打开数据文本文档,注意编码格式的影响wb=xlwt.......