1.爬虫介绍
爬虫就是程序从互联网中各个网站上爬取数据(只能爬区我们能看到的数据),然后进行数据清洗(筛选),入库。
爬虫的本质:模拟http请求,获取数据,入库。
百度就是一个大爬虫,百度爬虫一刻不停的在互联网页面中爬取各个页面,爬取完之后保存在自己的数据库中。
模拟发送http请求可以使用:requests模块、selenium。爬虫框架:scrapy。
2.requests模块介绍、使用
使用request可以模拟浏览器发送请求(http),比起之前哟用到的urllib,request的api更加便捷(本质就是封装了urllib3)。
1.安装:
pip3 install requests
2.requests发送get请求
import requests
res = requests.get('https://www.cnblogs.com/')
print(res.text)
# 结果就是页面所有的html标签
3.requests携带参数
方式一:
res = requests.get('https://www.cnblogs.com/?name=max&age=18')
print(res.text)
# 执行结果和上面没区别
方式二:
res = requests.get('https://www.cnblogs.com',params={'name':'max','age':17})
print(res.text)
3.url编码解码
如果我们携带的参数是中文,在地址栏会做url的编码
res = requests.get('https://www.cnblogs.com/liuqingzheng/p/16005866.html',params={'name':"彭于晏",'age':19})
print(res.url) # https://www.cnblogs.com/liuqingzheng/p/16005866.html?name=%E5%BD%AD%E4%BA%8E%E6%99%8F&age=19
编码的关键字:quote,解码关键字:unquote
res = quote('爬虫')
print(res) # %E7%88%AC%E8%99%AB
print(unquote('%E7%88%AC%E8%99%AB')) # 爬虫
4.请求头
http请求头中重要的信息:User-Agent、Cookie、Connection
1.User-Agent
反扒的措施之一,就是从请求头中携带的信息进行删选。如果发现既不是浏览器也不是手机端,那么访问的客户端可能就是爬虫。在http的请求中,请求头中有一个很重要的参数User-Agent,这个参数表明了客户端类型:
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.69
如果发送请求时没有携带这个请求头,后端就禁止访问。这里面注明了浏览器类型:Chrome,以及操作系统:Windows。我们可以在项目中利用这User-Agent在中间件中写一个检验措施,允许哪些浏览器或者操作系统可以访问。如果爬某个网站请求被禁止,可以有限加上该请求头信息再尝试。
那如何在爬虫措施中携带请求头呢?
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'}
res = requests.get('https://dig.chouti.com/',headers=headers)
print(res.text)
2.Connect:keep-alive
http:版本1.1、0.9:2.x
0.9的http版本基于tcp,建立一个http连接会在底层创建一个tcp连接,这样很耗费资源。到http1.1时,请求头中增加了一个参数:keep-alive,如果有该参数,那么他们之间是一直保持连接的,相对于每次请求都建立一个tcp连接可以消耗更少的资源。2.x比1.x多了多路复用:一个数据包下可以包含多个数据流,多个数据可以并行发送,提高对带宽得得得利用率。
5.http协议各个版本区别
0.9
HTTP协议的最初版本,功能简陋,仅支持请求方式GET,并且仅能请求访问HTML格式的资源。
1.0
增加了请求方式POST和HEAD;
请求行必须在尾部添加协议版本字段(http/1.0),每次通信都必须包括头信息(HTTP header),用来描述一些元数据。
不再局限于0.9版本的HTML格式,根据Content-Type可以支持多种数据格式,即MIME多用途互联网邮件扩展,例如text/html、image/jpeg等;
同时也开始支持cache,就是当客户端在规定时间内访问统一网站,直接访问cache即可。
其他的新增功能还包括状态码(status code)、多字符集支持、多部分发送(multi-part type)、权限(authorization)、缓存(cache)、内容编码(content encoding)等。
但是1.0版本的工作方式是每次TCP连接只能发送一个请求(默认短链接),当服务器响应后就会关闭这次连接,下一个请求需要再次建立TCP连接,就是不支持keep-alive。
短连接:客户端和服务端进行收发数据的时候才进行连接,一次收发消息后就进行断开。优点:管理起来比较简单,存在的连接都是有用的连接
长连接:双方建立连接,一次读写之后不会主动断开。优点:省去了TCP连接和关闭的时间,节省了时间,频繁请求的用户适合长连接,缺点是如果有人恶意攻击,产生大量的长连接,会使服务器受损。所以可以关闭一些长时间不用的连接,以及限制客户端的最大连接数
1.1
1.1 版的最大变化,就是引入了持久连接(persistent connection),即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。解决了1.0版本的keepalive问题,一个TCP连接可以允许多个HTTP请求;客户端和服务器发现对方一段时间没有活动,就可以主动关闭连接。不过,规范的做法是,客户端在最后一个请求时,发送Connection: close,明确要求服务器关闭TCP连接。
加入了管道机制,在同一个TCP连接里,允许多个请求同时发送,增加了并发性,进一步改善了HTTP协议的效率;举例来说,客户端需要请求两个资源。以前的做法是,在同一个TCP连接里面,先发送A请求,然后等待服务器做出回应,收到后再发出B请求。管道机制则是允许浏览器同时发出A请求和B请求,但是服务器还是按照顺序,先回应A请求,完成后再回应B请求。
新增了请求方式PUT、PATCH、OPTIONS、DELETE等。
客户端请求的头信息新增了Host字段,用来指定服务器的域名。在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此,请求消息中的URL并没有传递主机名(hostname)。但随着虚拟主机技术的发展,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址。
2.0
为了解决1.1版本利用率不高的问题,提出了HTTP/2.0版本。增加双工模式,即不仅客户端能够同时发送多个请求,服务端也能同时处理多个请求,解决了队头堵塞的问题(HTTP2.0使用了多路复用的技术,做到同一个连接并发处理多个请求,而且并发请求的数量比HTTP1.1大了好几个数量级);HTTP请求和响应中,状态行和请求/响应头都是些信息字段,并没有真正的数据,因此在2.0版本中将所有的信息字段建立一张表,为表中的每个字段建立索引,客户端和服务端共同使用这个表,他们之间就以索引号来表示信息字段,这样就避免了1.0旧版本的重复繁琐的字段,并以压缩的方式传输,提高利用率。
另外也增加服务器推送的功能,即不经请求服务端主动向客户端发送数据。
多路复用允许同时通过单一的 HTTP/2 连接发起多重的请求-响应消息
当前主流的协议版本还是HTTP/1.1版本。
多路复用:对于 HTTP/1.x,即使开启了长连接,请求的发送也是串行发送的,在带宽足够的情况下,对带宽的利用率不够,HTTP/2.0 采用了多路复用的方式,可以并行发送多个请求,提高对带宽的利用率。
详细请参考:https://juejin.cn/post/6974673084095660062
6.发送post请求携带数据
headers是请求头信息,data是请求体信息。从浏览器中的的network中找到需要向服务端发送什么请求携带什么参数,然后我们在这里模拟发送就可以了:
模拟点赞:
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36',
'cookie':'' # 从请求头中拿到cookie
}
data = {'postId':'17213598','voteType': 'Digg','isAbandoned': 'true'}
res = requests.post('https://www.cnblogs.com/',data=data)
print(res)
7.自动登录,携带cookie的两种方式
import requests
# 现在网页上多登陆,查看向后端发送post请求携带的数据,模仿网页的数据向后端发送post请求
data = {
'username': '',
'password': '',
'captcha': '3456', # 验证码
'remember': 1,
'ref': 'http://www.aa7a.cn/', # 重定向地址
'act': 'act_login'
}
res = requests.post('http://www.aa7a.cn/user.php',data=data)
print(res.text)
# 响应中会有登录成功的的cookie,
print(res.cookies) # RequestsCookieJar 跟字典一样
# 拿着这个cookie,发请求,就是登录状态
# 访问首页,get请求,携带cookie,首页返回的数据一定会有 我的账号
# 携带cookie的两种方式 方式一是字符串,方式二是字典或CookieJar对象
# 方式二:放到cookie参数中
res1=requests.get('http://www.aa7a.cn/',cookies=res.cookies)
print('邮箱信息' in res1.text) # 如果结果是true说明密码正确,因为能拿到数据说明数据cookie是正确的
8.requests.session的使用
requests.session就是为了此后不用携带cookie,它会自动把cookie加入到session当中。
import requests
data = {
'username': '',
'password': '',
'captcha': '3456',
'remember': 1,
'ref': 'http://www.aa7a.cn/',
'act': 'act_login'
}
session = requests.session()
res = session.post('http://www.aa7a.cn/user.php', data=data)
print(res.text)
res1 = session.get('http://www.aa7a.cn/') # 自动保持登录状态,自动携带cookie
print('616564099@qq.com' in res1.text)
9.补充post请求携带数据编码格式
import requests
# data对应字典,这样写,编码方式是urlencoded
requests.post(url='xxxxxxxx',data={'xxx':'yyy'})
# json对应字典,这样写,编码方式是json格式
requests.post(url='xxxxxxxx',json={'xxx':'yyy'})
# 终极方案,编码就是json格式
requests.post(url='',
data={'':1,},
headers={
'content-type':'application/json'
})
10.响应Response对象
# Response相应对象的属性和方法
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
respone=requests.get('http://www.jianshu.com',headers=headers)
# respone属性
print(respone.text) # 响应体转成了字符串
print(respone.content) # 响应体的二进制内容
print(respone.status_code) # 响应状态码
print(respone.headers) # 响应头
print(respone.cookies) # cookie是在响应头,cookie很重要,它单独做成了一个属性
print(respone.cookies.get_dict()) # cookieJar对象---》转成字段
print(respone.cookies.items()) # cookie的键值对
print(respone.url) # 请求地址
print(respone.history) # 不用关注
print(respone.encoding) # 响应编码格式
11.编码问题
# 有的网站,打印
res.text --->发现乱码---》请求回来的二进制---》转成了字符串---》默认用utf8转---》
response.encoding='gbk'
再打印res.text它就用gbk转码
13 下载图片,视频
import requests
# res=requests.get('http://pic.imeitou.com/uploads/allimg/230224/7-230224151210-50.jpg')
# # print(res.content)
# with open('美女.jpg','wb') as f:
# f.write(res.content)
#
res=requests.get('https://vd3.bdstatic.com/mda-pcdcan8afhy74yuq/sc/cae_h264/1678783682675497768/mda-pcdcan8afhy74yuq.mp4')
with open('致命诱惑.mp4','wb') as f:
for line in res.iter_content():
f.write(line)
标签:http,请求,res,爬虫,print,requests,连接
From: https://www.cnblogs.com/ERROR404Notfound/p/17219157.html