首页 > 其他分享 >爬虫基础

爬虫基础

时间:2023-10-01 21:33:45浏览次数:26  
标签:web 请求 url 基础 爬虫 响应 数据

1. 爬虫的概念

模拟浏览器,发送请求,获取响应

网络爬虫就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

  • 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做

  • 爬虫也只能获取客户端(浏览器)所展示出来的数据

2. 爬虫的作用

作用很多,例如:

数据采集: 机器学习舆情监控,数据分析挖掘等。

软件测试:web测试等。

web运营:投票,抢票等。

网络安全:短信轰炸,web漏洞扫描。

3. 爬虫的分类

3.1 根据被爬取网站的数量不同

  • 通用爬虫,如 搜索引擎

  • 聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据

3.2 根据是否以获取数据为目的

  • 功能性爬虫,给你喜欢的明星投票、点赞

  • 数据增量爬虫,比如招聘信息

根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为:

  • 基于url地址变化、内容也随之变化的数据增量爬虫

  • url地址不变、内容变化的数据增量爬虫

爬虫分类

4. 爬虫的流程

爬虫的工作流程

  1. 获取一个url

  2. 向url发送请求,并获取响应(需要http协议)

  3. 如果从响应中提取url,则继续发送请求获取响应

  4. 如果从响应中提取数据,则将数据进行保存

标签:web,请求,url,基础,爬虫,响应,数据
From: https://www.cnblogs.com/anttech/p/17739303.html

相关文章

  • JS基础(三)
    1、JS对象-JSON1.1、JS对象如下所示://定义对象letStudent={name:"张三",age:21,show:function(){document.write(this.name+this.age);}};//调用对象Student.show();1.2、JSON是通过JavaScript对象标记法书写的文本。由于其语法简单......
  • Webpack5 基础使用笔记
    [webpack中文文档](概念|webpack中文文档|webpack中文文档|webpack中文网(webpackjs.com)):本质上,webpack是一个用于现代JavaScript应用程序的静态模块打包工具。当webpack处理应用程序时,它会在内部从一个或多个入口点构建一个依赖图(dependencygraph),然后将你......
  • 爬虫概要
    1.知识碎片化要有足够的知识储备2.学习难度先轻后重爬虫是和开发运维的技术对抗,有价值的数据的爬取还是比较困难的。需要技术功底扎实。3.学习特点案例分散,需要触类旁通。多练习。4.后续发展不断学习新知识,掌握新技巧。5.法律层面把握好法律和道德底线,不要越过红线。......
  • 2023-2024-1 20231404《计算机基础与程序设计》第一周学习总结
    作业信息这个作业属于哪个课程2023-2024-1《计算机基础与程序设计》 这个作业要求在哪里 https://www.cnblogs.com/rocedu/p/9577842.html#WEEK01 这个作业的目标 浏览教材《计算机基础与程序设计》,每章提出问题并在期末解答 作业正文 https://www.cnblogs......
  • 学期:2023-2024-1 学号:20231426 《计算机基础与程序设计》第一周学习总结
    作业信息这个作业属于哪个课程2022-2023-1-计算机基础与程序设计这个作业要求在哪里2022-2023-1计算机基础与程序设计第一周作业这个作业的目标初步熟悉课本以及对所学内容有所思考作业正文教材学习内容总结大体认识了《计算机科学概论》这本书,了解其中......
  • ITIL各版本的一些细节-基础篇
    ITIL并不是标准,而是一套规范和框架,真正的标准是ISO20000,可以说ITIL是“事实上的标准”。信息安全管理不是ITIL的强项,是ITILV2的第十一个流程(并不在十大核心流程里面)。ISO27000是信息安全的标准。ITILV3/2011包含五个模块,其中服务战略、服务设计、服务转换、服务运营是生命周期......
  • 小程序笔记基础篇
    介绍结构组成结构app.jsonapp.json是当前小程序的全局配置,包括了小程序的所有页面路径、窗口外观、界面表现、底部tab等Demo项目里边的app.json配置内容如下:事件属性bingtap的语法格式在小程序中,不存在HTML中的onclick鼠标点击事件,而是通过tap事件来......
  • salesforce零基础学习(一百三十二)Flow新功能: Custom Error
    本篇参考:https://help.salesforce.com/s/articleView?id=sf.flow_ref_elements_custom_error.htm&type=5https://developer.salesforce.com/docs/atlas.en-us.apexcode.meta/apexcode/apex_triggers_order_of_execution.htm我们针对这些次salesforce的releasenote可以看出来,sa......
  • 基础算法:区间合并
    1、区间合并以AcWing.803为例,题目要求如下:给定n个区间[li,ri],要求合并所有有交集的区间。注意如果在端点处相交,也算有交集。输出合并完成后的区间个数。例如:[1,3]和[2,6]可以合并为一个区间[1,6]。输入格式第一行包含整数n。接下来n行,每行包含两个整数l和r。输......
  • SQL语法基础随记
    参考资料:[廖雪峰的官方网站][菜鸟教程]写这个教程还是为了方便自己今后查阅,如果读者希望能够系统地学习SQL语言,还是找一个好的Tutorial看一下比较好。SQL语言的基础就是四个字:增查删改。我直接使用了一个开源的SQL客户端DBeaver作为自己客户端。进去之后它会自......