首页 > 其他分享 >爬虫理论知识

爬虫理论知识

时间:2022-09-27 11:44:21浏览次数:63  
标签:网页 爬虫 更新 Modified html 理论知识 页面

常用的请求方法

(1)Get
(2)Post
(3)Put
(4)Delete
(5)Trace
(6)Head
(7)Connect
(8)Options
列举反爬虫机制
(1)UA检测;UserAgent:实现UA伪装;Cookie:模拟登陆;Accept:接受数据类型
(2)Robots协议
(3)验证码
(4)IP封禁
(5)账号封禁
(6)动态数据加载
(7)Js数据加密
(8)隐藏参数
(9)字体反爬
网页请求的库
python
(1)Requests
(2)Urllib;https://blog.csdn.net/m0_43404934/article/details/122330996
(3)Aiohttp
爬虫中解析数据的模块
(1)Lxml
(2)Bs4
(3)Pyquery
怎么判断网站是否更新?
    1、304页面http状态码

    当第二次请求页面访问的时候,该页面如果未更新,则会反馈一个304代码,而搜索引擎也会利用这个304http状态码来进行判断页面是否更新。

    首先第一次肯定是要爬取网页的,假设是A.html,这个网页存储在磁盘上,相应地有个修改时间(也即是更新这个文件的时间)。

    那么第二次爬取的时候,如果发现这个网页本地已经有了,例如A.html,这个时候,你只需要向服务器发送一个If-Modified-Since的请求,
把A.html的修改时间带上去。 如果这段时间内,A.html更新了,也就是A.html过期了,服务器就会HTTP状态码200,并且把新的文件发送过来,这时候只要更新A.html即可。 如果这段时间内,A.html的内容没有变,服务器就会返返回HTTP状态码304(不返回文件内容),这个时候就不需要更新文件。 2、Last-Modified文件最后修改时间 这是http头部信息中的一个属性,主要是记录页面最后一次的修改时间,往往我们会发现,一些权重很高的网站,及时页面内容不更新,但是快照却还是能够每日更新,
这其中就有Last-Modified的作用。通产情况下,下载网页我们使用HTTP协议,向服务器发送HEAD请求,可以得到页面的最后修改时间LastModifed,或者标签ETag。
将这两个变量和上次下载记录的值的比较就可以知道一个网页是否跟新。这个策略对于静态网页是有效的。是对于绝大多数动态网页如ASP,JSP来说,
LastModifed就是服务器发送Response的时间,并非网页的最后跟新时间,而Etag通常为空值。所以对于动态网页使用LastModifed和Etag来判断是不合适的,
因此Last-Modified只是蜘蛛判断页面是否更新的一个参考值,而不是条件。

 参考链接:非原创,链接丢失

标签:网页,爬虫,更新,Modified,html,理论知识,页面
From: https://www.cnblogs.com/topass123/p/16734011.html

相关文章

  • 一小伙使用 python爬虫来算命?
    1.网站分析因版权原因,网站的地址大家可以私信我或者加我文章结尾的qq,完整的教程群里有,需要的自提,当然遇到问题也可以请教哦。2.获取内容我们今天呢,就先做一个通过星座来得......
  • 【Python】网络爬虫
    本章主要讲的是基于Python语言的数据采集,该功能要讲起来可以单独作为一门课程来学习,因为这是一门很重要的课程,一般运用在大数据处理和人工智能上,该应用提供大量的数据。1.......
  • 爬虫基础——静态网页与动态网页
    爬虫基础——静态网页与动态网页在爬虫前应首先名确待爬取的页面是静态的,还是动态的,只有确定了页面类型,才方便后续对网页进行分析和程序编写。对于不同的网页类型,编写爬......
  • Python爬虫快速入门指南
    笔者近期需要使用爬虫技术来爬取某网页上的数据,因此学习了一下Python爬虫技术,正好最近也在学习Javaweb和spring相关技术,借此过程巩固一下相关基础知识。1了解基础知识①......
  • 盘点一个Python抓取有道翻译爬虫中的报错问题
    大家好,我是皮皮。一、前言前几天在Python白银交流群【斌】问了一个Python网络爬虫的问题,提问截图如下:报错截图如下:粉丝需要的数据如下:二、实现过程有道翻译之前有......
  • python爬虫随机headers伪装fake_useragent
    python爬虫随机headers伪装fake_useragentfake_useragent库调用方法ua.random可以随机返回一个headers(User-Agent)fromfake_useragentimportUserAgent#下载:pip......
  • 爬虫基本原理
    目录一、爬虫是什么二、爬虫的基本流程三、请求与响应四、总结一、爬虫是什么1、浏览器获取数据的方式浏览器提交请求->下载网页代码->解析/渲染成页面2、爬虫获......
  • 盘点一个Python网络爬虫实战问题
    大家好,我是皮皮。一、前言前几天在Python铂金交流群【红色基因代代传】问了一个Python网络爬虫的问题,提问截图如下:代码截图如下:报错截图如下:要么就是原始网页没那......
  • 第1章 计算机的理论知识
    第1章计算机的理论知识第01阶段计算机的理论知识1.计算机的概念计算机(computer)俗称电脑,是现代一种用于高速计算的电子计算机器,可以进行数值计算,又可以进行逻辑判断......
  • VBA爬虫案例
    PrivateSub批量获取()DimrowTotal!,res$,i!,t!,index!DimobjXML,objSC,obj,strModel$,queryUrl$,detailUrl$,html,tr,tdApplication.ScreenUp......