1.爬虫分类:
1)通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。
2)聚焦爬虫:建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容
3)增量式爬虫:监测网站中数据更新的,只会抓取网站中最新更新出来的数据
robots.txt 协议
查看爬取网站协议: 网站/robots.txt
http协议:
-概念:就是服务器和客户端进行数据交互的一种形式
常用请求头信息:
-User-Agent:请求载体的身份标识 ,里面包含浏览器,电脑操作系统等等;
-connection:请求完毕后,是断开连接还是保持连接
常用响应头信息:
-content-type:服务器响应回客户端的数据类型
https协议:
-安全的超文本传输协议
加密方式:
对称密钥加密 :客户端将密钥和信息一起传给服务器端,服务器端对其进行解密 弊端:有可能会被第三方拦截
非对称密钥加密 :服务器端将加密方式发送给客户端,客服端按其要求将信息加密,服务器端对其解密。传输的过程中只有密文没有密钥 ,分公钥和私钥
弊端:效率低,公钥有可能被拦截
证书密钥加密(https采用):加入证书认证机构,服务器端将公钥发给机构,机构对公钥进行签名(防伪)
标签:加密,服务器端,爬虫,抓取,密钥,http,基本概念,客户端 From: https://www.cnblogs.com/ylxb-1/p/17024397.html