python爬虫是什么？爬虫可以分为哪几类？

时间：2022-11-29 12:02:14浏览次数：46

　　众所周知，Python是一门脚本语言，也被称为胶水语言，其应用领域也是十分广泛的，哪怕你不想从事IT行业，学习Python语言也是百利而无一害的，今天给大家详细介绍下Python网络爬虫究竟是什么，请看下文：

　　网络爬虫也被称为网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。

　　爬虫也是很常见的，我们所熟悉的一系列搜索引擎，都是大型的网络爬虫，如百度、搜狗、谷歌搜索等等，每个搜索引擎都有各自的爬虫程序，比如360浏览器的爬虫被称作360Spider，搜狗的爬虫叫做Sogouspider。

　　百度搜索引擎也可以更形象地称之为百度蜘蛛，它每天都会在海量的互联网信息中爬取优质的信息并进行收录，当用户通过百度检索关键词时，其首先会对用户输入的关键词进行分析，然后从收录的网页中找出相关的网页，并按照排名规则对网页进行排序，最后将排序后的结果呈现给用户。因此在这个过程中，百度蜘蛛起到了非常关键的作用。

　　爬虫可以分为三大类：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫。

　　通用网络爬虫：是搜索引擎的重要组成部分，通用网络爬虫需要遵守robots协议，网站通过此协议告诉搜索引擎哪些页面可以抓取，哪些页面不允许抓取。

　　聚焦网络爬虫：是面向特定需求的一种网络爬虫程序。它与通用爬虫的区别在于，聚焦爬虫在实施网页抓取的时候会对网页内容进行筛选和处理，尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫极大地节省了硬件和网络资源，由于保存的页面数量少所以更新速度很快，这也很好地满足一些特定人群对特定领域信息的需求。

　　增量式网络爬虫：是指对已下载网页采取增量式更新，它是一种只爬取新产生的或者已经发生变化网页的爬虫程序，能够在一定程度上保证所爬取的页面是最新的页面。

标签：网页,python,抓取,爬虫,网络,几类,搜索引擎,页面
From： https://blog.51cto.com/u_14661964/5894703

Python异步协程（asyncio详解）
续上篇讲解yieldfrom博客，上篇链接：https://www.cnblogs.com/Red-Sun/p/16889182.htmlPS：本博客是个人笔记分享，不需要扫码加群或必须关注什么的（如果外站需要加群或关注的可......
拥抱云原生，Java与Python基于gRPC通信
......
PYTHON 运算符
1.1运算符运算符也称操作符，主要有算术，关系，逻辑，位等。1.2算术运算符用于整数，浮点数的计算。运算符描述实例+加-两个对象相加a+b-减-得到负数或......
python的特点
python入门快速的一个语言，那它的这个简单易学的特点体现在什么地方呢。下面这一篇文章就会来详细的解析一下为什么说python语言是简单易学的。（1）python简单易学的这个特点......
Python 10 函数
函数创建例：【下面的一定要看懂】#作者：咸瑜#代码时间：2022年11月28日defcalc(a,b):returna+b#传参方式1[自动"位置"传参]res=calc(1,9)print(......
python接口自动化43- 使用代理proxies 发送请求
前言如何在requests模块中使用代理发送请求requests使用代理在requests模块中使用代理示例#作者-上海悠悠微信/QQ交流:283340479#blog地址https://www.cnblogs......
python学习之基础内容
安装包下载：https://www.python.org/downloads/，可以根据自己系统选择window版本和linux版本。查询python版本使用：python--version，windows和linux命令一样Pippip是Py......
多版本 Python 使用 pip 安装 package 问题
最简单的方式使用参数指定安装路径：pipinstall-tD:\python3.5(32bit)\Lib\site-packagesnumpy叨叨叨如果电脑上安装了多个版本的Python的话，在需要使用pip安装新pac......
Python资料1
Python资料 Python入门基础教程（非常详细）原创20Python是一门开源免费、通用型的脚本编程语言，它上手简单，功能强大，坚持「极简主义」。Python类库（模块）极其丰富，......
python从公众号文章中获取二维码
在做一个公众号采集的项目中，客户有个要求，想把二维码的url保存到数据库中，如图。原本以为要各种骚操作各种逆向才能获取得到，没想到竟然很简单。第一步观察二维码url的规......

python爬虫是什么？爬虫可以分为哪几类？

相关文章

赞助商

阅读排行