首页 > 其他分享 >爬虫_052_爬虫相关概念介绍

爬虫_052_爬虫相关概念介绍

时间:2024-02-12 18:33:05浏览次数:30  
标签:反爬 爬虫 概念 手段 电商 数据 052

目录

image-20240212180039976

爬虫的定义

image-20240212180000656

image-20240212180010972

爬虫就是一个程序,程序运行完成之后,就能够拿到你想要获取的数据。

爬虫的奥义就是程序模拟浏览器

爬虫的核心

image-20240212180847451

爬虫的难点在于:解析数据。

爬虫的用途

image-20240212181012116

image-20240212181215973

社交类:陌陌一开始爬微博数据当假的用户。

电商类:电商网站互相监控,互相降价。

出行类:智行、飞猪高频次访问12306,购票软件都访问它,出行类占比很大。

政府部门:中国天气网。

爬虫的分类

image-20240212181631073

image-20240212181644758

反爬手段

image-20240212182003971

第一个反爬手段:User-Agent校验

第二个反爬手段:访问一个网站,有异与人类的行为,它会封禁你的IP。

第三个反爬手段:验证码

第四个反爬手段:返回JS数据,不是网页真实数据

第五个反爬手段:数据加密(比如字体加密)


image-20240212182337706

标签:反爬,爬虫,概念,手段,电商,数据,052
From: https://www.cnblogs.com/gnuzsx/p/18014021

相关文章

  • Python通过Lxml库解析网络爬虫抓取到的html
    ​Lxml是基于libxml2解析库的Python封装。libxml2是使用C语言编写的,解析速度很好,不过安装起来稍微有点复杂。安装说明可以参考(http://Lxml.de/installation.html),在CentOS7上中文安装说明(http://www.cjavapy.com/article/64/),使用lxml库来解析网络爬虫抓取到的HTML是一种非常......
  • 概念解读-云原生和容器编排
    有些概念没有标准答案,每个地方解释的也都很模糊,概念也一直被滥用,比如说云原生的概念。有些概念听起来高大上,实际上很普通,比如说容器编排的概念。本文我对这两个概念作个解释。1、云原生最近几年,“云原生”一度成为前沿的技术用语,各种业内技术大会都能看到“云原生”的字样,但是......
  • 01-爬虫概述
    1.什么是爬虫?用代码代替人去模拟浏览器或手机去执行执行某些操作。例如:自动登录钉钉,定时打卡去91自动下载图片/视频去京东抢茅台3.分析&模拟分析一个网址,用requests请求就可以实现。3.1请求分析基于谷歌浏览器去分析。3.2模拟请求基于requests模块发送请求。pip......
  • 第 7章 Python 爬虫框架 Scrapy(上)
    第7章Python爬虫框架Scrapy(上)编写爬虫可以看成行军打仗,基本的角色有两个:士兵和将军,士兵冲锋陷阵,而将军更多地是调兵遣将。框架就像一个将军,里面包含了爬虫的全部流程、异常处理和任务调度等。除了可以让我们少写一些烦琐的代码,学习框架还可以学到编程思想和提升编程能力。Pyt......
  • 第 6章 Python 应对反爬虫策略
    第6章Python应对反爬虫策略爬取一个网站的基本步骤(1)分析请求:URL规则、请求头规则、请求参数规则。(2)模拟请求:通过Requests库或urllib库来模拟请求。(3)解析数据:获取请求返回的结果,利用lxml、BeautifulSoup或正则表达式提取需要的节点数据。(4)保存数据:把解析的数据持......
  • 在k8S中,初始化容器(init container)概念原理是什么?
    在Kubernetes(k8S)中,初始化容器(InitContainer)是一个特殊类型的容器,它会在应用程序容器启动之前运行。它的主要目的是执行一些必要的先决条件任务,这些任务必须在主应用容器开始服务前完成。初始化容器的概念原理如下:顺序执行:Pod中可以定义多个初始化容器,它们按照配置文件......
  • 2.1.4 程序基本概念——编辑、编译、解释、调试的概念
    编辑概念C++程序的编辑即为,对代码的编写过程,完成这种过程需要借助相关软件,该类软件叫做C++代码编辑器。编译和解释概念计算机只能识别由0、1组成的二进制代码,称为机器码。所以我们现在使用高级编程语言编写的程序就需要一个翻译过程,将其转换成计算机认识的二进制代码,而这个翻......
  • 爬虫:豆瓣电影Top250
    感觉爬虫就是一种自动在网上收集信息的程序对豆瓣Top250的爬取,就是写一个爬虫程序,让他模仿人类行为,打开网站,找到信息,然后提取数据这段代码是使用lxml库来解析HTML,并通过XPath选择器提取数据importrequests#用于发起网络请求。fromlxmlimportetree#用于解析HTML文档,这......
  • Spring 接点、切点、切面、引入、织入、通知 概念
    importcom.github.pagehelper.PageHelper;importorg.aspectj.lang.ProceedingJoinPoint;importorg.aspectj.lang.annotation.Around;importorg.aspectj.lang.annotation.Aspect;importorg.aspectj.lang.annotation.Pointcut;importorg.springframework.context.ann......
  • kubernetes集群核心概念---pod
    1.pod介绍参考链接:https://kubernetes.io/zh/docs/concepts/workloads/pods/1.1.查看pod[root@centos~]#kubectlgetpod#pod或pods都可以,不指定namespace,默认是名为default的namespace [root@centos~]#kubectlgetpod-nkube-system1.2.pod的yaml资源清单格式......