爬虫基本概念-分类及http协议

时间：2023-01-06 13:11:52浏览次数：46

标签：加密服务器端爬虫抓取密钥 http 基本概念客户端

1.爬虫分类：

　　　　1）通用爬虫：抓取系统重要组成部分，抓取的是一整张页面数据。　　

　　　　2）聚焦爬虫：建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容

　　　　3）增量式爬虫：监测网站中数据更新的，只会抓取网站中最新更新出来的数据

robots.txt 协议

　　　　查看爬取网站协议：网站/robots.txt

http协议：

　　-概念：就是服务器和客户端进行数据交互的一种形式

常用请求头信息：

　　-User-Agent:请求载体的身份标识，里面包含浏览器，电脑操作系统等等；

　　-connection:请求完毕后，是断开连接还是保持连接

常用响应头信息：

　　-content-type:服务器响应回客户端的数据类型

https协议:

　　-安全的超文本传输协议

加密方式：

　　对称密钥加密 :客户端将密钥和信息一起传给服务器端，服务器端对其进行解密弊端：有可能会被第三方拦截

　　非对称密钥加密：服务器端将加密方式发送给客户端，客服端按其要求将信息加密，服务器端对其解密。传输的过程中只有密文没有密钥，分公钥和私钥

　　　　　　　　　　弊端：效率低，公钥有可能被拦截

证书密钥加密(https采用)：加入证书认证机构，服务器端将公钥发给机构，机构对公钥进行签名(防伪)

标签：加密,服务器端,爬虫,抓取,密钥,http,基本概念,客户端
From： https://www.cnblogs.com/ylxb-1/p/17024397.html

「docker实战篇」python的docker爬虫技术-移动自动化控制工具appium工具（17）
框架，可用于原生，混合和移动Web应用程序测试。它使用WebDriver协议驱动iOS，Android应用程序。直接多种语言：java，python等等。appium架构####desiredcapabilitydesiredcapabil......
「docker实战篇」python的docker爬虫技术-移动自动化控制工具安卓ADB的使用（15）
ebugBridge），安卓平台调试桥，是连接Android手机与PC端的桥梁，通过adb可以管理、操作模拟器和设备，如安装软件、查看设备软硬件参数、系统升级、运行shell命令等。####adb首先需......
『中级篇』docker之运行nginx跳转到本地的jar并配置https（番外篇）（80）
2g内存，安装了mysql容器，java容器，nginx容器。具体安装docker我就不说了，没啥讲的重复很多遍的。mysql也之前讲过。nginx的安装新建立nginx的目录nginx防止出现下面的错误docke......
python网络爬虫（二）
今天看了网络爬虫爬取图片的内容，主要是讲利用正则匹配爬图片。Day3-3.正则解析案例01_哔哩哔哩_bilibili所以就想着用学到的内容去试一下，我直接用这个方法去爬B站的图......
【从零开始学爬虫】采集食品行业最新报价数据
l采集网站【场景描述】采集食品行业最新报价数据。【源网站介绍】中国报告大厅网休闲食品行业数据频道提供休闲食品行业数据信息，在此有大量休闲食品行业数据信息可......
python爬虫之抓取彼岸壁纸
喜欢壁纸的小伙伴经常苦恼于不能找到高清壁纸，网络上手动搜索费时费力，而且格式大小不适合电脑还会失真。那么我们该如何通过python爬虫实现高效快速爬取高清图片呢？下面的代码......
新手如何完成python视频爬虫
作为新手小白学习爬虫，重要的就是实战经验，爬虫语言有多种，今天我们就通过python语言来做爬虫视频，下面的代码值得大家借鉴参考。#coding=utf-8importjsonimportos.pathimpo......
狂神说Go语言—Go语言Http编程
web开发基础知识静态web与动态webweb：网页静态web：html、css提供给所有的人数据不会发生变化动态web：淘宝、京东几乎所有的网站提供给所有人的数据始终会发生变......
加解密与HTTPS（5）
您好，我是湘王，这是我的51CTO博客，欢迎您来，欢迎您再来～咱们大学读完之后有毕业证书，并且这个证书可以在学信网查询。专业上有注会、CCIE、律师证等，可以在国家职业认证机构或委托......
网易云爬虫+逆向分析
本人属于爬虫小白级别，历经重重困难终于有了点感觉，对于网易云音乐的爬虫，想为大家分享一下自己的思路，有不足的地方还望各位大佬指出。当然，目前无法下载无损音乐，也无法下载vi......

爬虫基本概念-分类及http协议

相关文章

赞助商

阅读排行