首页 > 其他分享 >1.爬虫的简介

1.爬虫的简介

时间:2023-03-24 18:23:18浏览次数:26  
标签:... 加密 网站 简介 爬虫 抓取 数据

前戏:
    1.你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源...
    2.你是否在节假日出行高峰的时候,想快速抢购火车票成功...
    3.你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品...

什么是爬虫:
    - 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。


爬虫的价值:
    - 实际应用
    - 就业

爬虫究竟是合法还是违法的?
- 在法律中是不被禁止
- 具有违法风险
- 善意爬虫  恶意爬虫

爬虫带来的风险可以体现在如下2方面:
    - 爬虫干扰了被访问网站的正常运营
    - 爬虫抓取了收到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入局子的厄运呢?
    - 时常的优化自己的程序,避免干扰被访问网站的正常运行
    - 在使用,传播爬取到的数据时,审查抓取到的内容,如果发现了涉及到用户隐私
    商业机密等敏感内容需要及时停止爬取或传播


爬虫在使用场景中的分类
    - 通用爬虫:
        抓取系统重要组成部分。抓取的是一整张页面数据。
    - 聚焦爬虫:
        是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
    - 增量式爬虫:
        检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬虫的矛与盾


反爬机制
    门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

反反爬策略
    爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站中相关的数据。


robots.txt协议:
    君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。
  https://www.taobao.com/robots.txt


http协议
    - 概念:就是服务器和客户端进行数据交互的一种形式。
常用请求头信息
    - User-Agent:请求载体的身份标识
    - Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息
    - Content-Type:服务器响应回客户端的数据类型

https协议:
    - 安全的超文本传输协议

加密方式
    - 对称秘钥加密

 

 


    - 非对称秘钥加密
  

 

 


    - 证书秘钥加密
  

 

 




标签:...,加密,网站,简介,爬虫,抓取,数据
From: https://www.cnblogs.com/victor1234/p/17252995.html

相关文章

  • 个人简介和项目介绍
    你好呀,亲爱的陌生人,本文分为三部分,第一部分为个人简介,简单的介绍个人的风雨编程路第二部分为项目简介,介绍简历中的项目第三部分为其他做过的项目介绍,可以略过一、个......
  • 【建议收藏】7000+字的TIDB保姆级简介,你见过吗
    TIDB简介什么是TIDBTiDB是一个分布式NewSQL数据库。它支持水平弹性扩展、ACID事务、标准SQL、MySQL语法和MySQL协议,具有数据强一致的高可用特性,是一个不仅适合......
  • 20Cr钢板简介、20Cr化学成分及力学性能、20Cr钢板简介期货订轧
    一、20Cr钢板简介:20Cr是一种低淬透性渗碳钢。大多用于制造心部强度要求较高,表面承受磨损、截面在30mm以下的或形状复杂而负荷不大的渗碳零件。在现实生活中的应用十分广泛......
  • python 网络爬虫
    #-*-coding:cp936-*-importstring,urllib2path="G:/NewKnowledge/practice/python/tmp/"defbaidu_tieba(url,begin_page,end_page):foriinrange(begin_......
  • 【建议收藏】7000+字的TIDB保姆级简介,你见过吗
    TIDB简介什么是TIDBTiDB是一个分布式NewSQL数据库。它支持水平弹性扩展、ACID事务、标准SQL、MySQL语法和MySQL协议,具有数据强一致的高可用特性,是一个不仅适合......
  • SSD 接口简介——SATA/SAS
    SSD盘和主机端通过各种各样的接口互联,这里种类比较多,而且有些既是接口又是协议,有些既是接口又是规范,所以很容易一头雾水,于是这篇文章主要目的是梳理好这些不同的概念,只是......
  • SSD 接口简介——M.2/U.2
    一,M.2 -the NextGenerationFormFactor (NGFF)从名字上可以看出M.2在最初主要关于新一代尺寸的规格,它定义了以下几种尺寸,类似于内存条的样子。M.2size在接口上,......
  • SSD 简介—— NAND 芯片介绍
    制作存储芯片的制作和其他芯片制作大致相同,从沙子中提取单晶硅制作晶圆再封装芯片。闪存芯片从架构上分为NOR和NANDNORFlash的sourceline把每个cell都并联起来,而NAN......
  • ISM Web组态软件的组态应用开发之组态界面简介
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、组件样式二、组件的事件三、组件的动作四、组件的动画总结前言ISM的组态是由本人自主研发的......
  • Vue.js 路由简介
    路由理解:一个路由(route)就是一组映射关系(key-value),多个路由需要路由器(router)进行管理。前端路由:key是路径,value是组件。......