首页 > 其他分享 >20221022学习笔记-爬虫基础

20221022学习笔记-爬虫基础

时间:2022-10-22 20:47:04浏览次数:59  
标签:-- 抓取 笔记 20221022 URL 爬虫 数据 页面

爬虫概述

  1. 爬虫的概念:

网络爬虫(又称为网络蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动抓取互联网信息的程序。

  • 原则上,客户端能做的事情,爬虫都能做
  • 爬虫也只能获取客户端(浏览器)所展示出来的数据
  1. 爬虫的作用

数据采集

  • 抓取微博评论(机器学习舆情监控)
  • 抓取招聘网站的招聘信息(数据分析、挖掘)
  • 新浪滚动新闻

软件测试

  • 爬虫自动化测试
  • 虫师

12306抢票

网站上的投票

网络安全

  • 短信轰炸

    • 注册页面1
    • 注册页面2
    • 注册页面3
  • web漏洞扫描

  1. 爬虫的分类

根据被爬取网站的数量不同,可以分为:

  • 通用爬虫
  • 聚焦爬虫,专门抓取某一个或一类网站数据

根据是否获取数据为目的,可以分为:

  • 功能性爬虫
  • 数据增量爬虫

根据URL地址和对应的页面内容是否改变,数据增量爬虫可以分为:

  • 基于URL地址变化、内容也随之变化的数据增量爬虫
  • URL地址不变、内容变化的数据增量爬虫

爬取的流程

graph TB A("Url_list") B("发送请求,获取响应") C("解析响应") D("保存数据") A--url-->B-->C--提取数据-->D C--提取URL-->A

标签:--,抓取,笔记,20221022,URL,爬虫,数据,页面
From: https://www.cnblogs.com/holychan/p/16817236.html

相关文章

  • Vue 笔记8 插槽slot、编译作用域
                          ......
  • 爬虫中遇到登陆问题的解决方法
    在爬取网页时,由于会遇到登录问题而被阻止,此时通过改变头部信息来解决此问题以爬取京东商品页面为例1、先登录京东账号2、摁F12进入调试页面,然后刷新页面,在Network栏......
  • Vue笔记7 父子组件访问
                      ......
  • 周六1900C++班级20221022-for循环
    for语法:for(initialization;test-condition;increment){statement-list;}for构造一个由4部分组成的循环:初始化,可以由0个或更多的由逗号......
  • c语言—数据存储进阶篇—笔记
    数据存储还是比较麻烦的,因为要数数和做加减运算(原码、反码、补码),但因为牵扯到内存硬件,所以比较容易理解。1.数据类型char//字符数据类型short//短整型int//整形long//长......
  • [笔记]局域网知识
    ......
  • 第五章学习笔记
    第5章定时器及时钟服务5.1硬件定时器定时器是由时钟源和可编程计数器组成的硬件设备。时钟源通常是一个晶体振荡器,会产生周期性电信号,以精确的频率驱动计数器。使用一......
  • 教材第五章学习笔记
    知识点归纳定时器是由时钟源和可编程计数器组成的硬件时钟源通常是一个晶体震荡器,产生周期性电信号当计数器减为0时,向CPU生成定时器中断当CPU遇到异常时,会进行预设的异......
  • Markdown学习的笔记
    Markdown学习标题三级标题两边**是粗体两边一个*是斜体两边三个*是加粗斜体两边两个~是删除线的效果引用一个>加空格分割线三个减号、三个*图片!加中括号加小......
  • 《Unix/Linux系统编程》学习笔记8
    第五章定时器及时钟服务一、知识点归纳(一)硬件定时器  定时器是由时钟源和可编程计数器组成的硬件设备。时钟源通常是一个晶体振荡器,会产生周期性电信号,以料青确的......