首页 > 其他分享 >爬虫简介

爬虫简介

时间:2024-02-22 13:22:07浏览次数:28  
标签:协议 加密 简介 爬虫 抓取 密钥 门户网站

爬虫分类:

  通用爬虫:抓取系统重要组成部分,抓取的是一个整张页面的数据

  聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容

  增量式爬虫:检测网站中数据更新的情况,指挥抓取网站中最新更新出来的数据

爬虫的矛与盾:

反爬机制

  门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取

反反爬策略:

  爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反扒机制,从而可以获取门户网站

robots.txt协议

  君子协议。明确规定了哪些可以被爬取,哪些不能被爬取

http协议:

  -概念:就是服务器和客户端进行数据交互的一种形式

常用的请求头信息:

  -User-Agent:请求载体的身份标识

  - Connection:请求完毕后,是断开连接还是保持连接

常用的响应头信息:

  -Content-Type:服务器响应回客户端的数据类型

https协议:

  - 安全的http(超文本传输)协议

  数据加密:

    加密方式

      -对称密钥加密    -非对称密钥加密    -证书密钥加密

标签:协议,加密,简介,爬虫,抓取,密钥,门户网站
From: https://www.cnblogs.com/lin513/p/18027113

相关文章

  • 爬虫03_days
    selenium介绍#1由于requests不能执行js---》逐个分析ajax请求--》模拟发送获取数据 -使用requests爬取的数据很大概率跟在浏览器中看到的不一样-requests不能执行js#2seleniumselenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaS......
  • Scrapy爬虫框架
    一、安装Scrapypipinstallscrapy二、创建scrapy项目scrapystartprojectmy_spider三,创建爬虫文件scrapygenspiderexampleexample.com#example文件名称#example.com爬取网站地址#如:scrapygenspiderbaidubaidu.com出现下图就创建成功 四、运行刚才......
  • python 爬虫模板
    前言在我们写爬虫的时候,一般想要的数据都在详情页里面,一般代码进入详情页参数,需要首页里面寻找,所以爬这样的网站,需要定义一个模板我的模板如下: importrandomimporttimeimportrequestsfromauctionimportlogtoolfromauction.BaseCrawlerimportBaseCrawlercla......
  • [转]基于前端技术栈的PC跨平台桌面应用开发技术Electron简介及快速入门
    原文地址:Electron简介及快速入门-知乎大江东去:基于EA的软件工程创新理论与最佳实践第四章:桌面应用系统开发基础及入门第四节:Electron简介及快速入门一、Electron基本介绍官网地址:https://www.electronjs.org/Electron是一个由OpenJS基金会维护的开源项目,也是一个活跃的......
  • Unity中的SerializeReference使用简介
    Unity默认可以序列化值类型,Serializable属性修饰的类型,派生自UnityEngine.Object的类型,通常这些类型已经足以供日常使用了.但是有时我们希望在编辑器面板上序列化一个接口或者抽象类,则需要用到SerializeReference属性.假定我们有一个接口IEatable,并实现了两个类Brea......
  • python实战:用requests+做爬虫
    一,安装requests1,用pip安装(venv)liuhongdi@192news%pip3installrequests2,查看所安装库的版本:(venv)liuhongdi@192news%pip3showrequestsName:requestsVersion:2.31.0Summary:PythonHTTPforHumans.Home-page:https://requests.readthedocs.ioAu......
  • 爬虫_02days
    免费代理池搭建#代理有免费和收费代理#代理有http代理和https代理#匿名度 -高匿:隐藏访问者ip-透明:服务端能拿到访问者ip-作为后端,如何拿到使用代理人的ip -请求头中:x-forword-for-如果一个HTTP请求到达服务器之前,经过了三个代理Proxy1、Proxy2、Proxy3......
  • gengine简介
    gengine简介gengine是一款基于golang和AST(抽象语法树)开发的规则引擎,gengine支持的语法是一种自定义的DSLgengine于2020年7月由哔哩哔哩(bilibili.com)授权开源gengine现已应用于B站风控系统、流量投放系统、AB测试、推荐平台系统等多个业务场景你也可以将gengine应用于gol......
  • STL简介
    01.STL的介绍(重点)1.STL(StandardTemplateLibrary,标准模板库)2.STL提供了六大组件:容器,算法,迭代器,仿函数,适配器,空间配置器​ 容器:各种数据结构​ 算法:各种常用的算法(冒泡,排序)​ 迭代器:扮演了容器与算法之间的胶合剂(类似于指针等)​ 仿函数:行为类似函数,可作为算法的某种策略......
  • OCV, AOCV, POCV, LVF 简介
    芯片生产过程中,由于外界条件和生产条件的变化,如PVT,可能导致同一晶圆上不同区域的芯片晶体管速度变快或变慢,从而产生corner概念。BCWC代表bestcasecorner和worstcasecorner,分别表示两种不同的PVT环境。OCV、AOCV、POCV和LVF模式是在不同PVT(不同corner)基础上添加derate。1.OCV......