Scrapy爬虫框架，入门案例（非常详细）源码

时间：2022-11-25 11:26:30浏览次数：39

一、概述
Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试.

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持.

二、Scrapy五大基本构成:
Scrapy框架主要由五大组件组成，它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫（Spider）和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。

(1)、调度器(Scheduler):

调度器，说白了把它假设成为一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址（不做无用功）。用户可以自己的需求定制调度器。

(2)、下载器(Downloader):

下载器，是所有组件中负担最大的，它用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。

(3)、爬虫（Spider）:

爬虫，是用户最关心的部份。用户定制自己的爬虫(通过定制正则表达式等语法)，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。

(4)、实体管道(Item Pipeline):

实体管道，用于处理爬虫(spider)提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。

(5)、Scrapy引擎(Scrapy Engine):

Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。实际上，引擎相当于计算机的CPU,它控制着整个流程。

三、整体架构图
本图按顺序说明整个程序执行时候发生的顺序。

注意在调用下载器时，往往有一个下载器中间件，使下载速度提速。

官网架构图

四、Scrapy安装以及生成项目

新建一个项目，该项目的结构如下：

执行命令,widows和ubuntu命令格式是一样的：

下载方式

ubuntu，打开一个终端，输入pip install scrapy(或pip3 install scrapy）

widows ，打开一个cmd，输入pip install scrapy，前提是你装了pip

标签：框架,实体,爬虫,抓取,Scrapy,源码,下载
From： https://www.cnblogs.com/okeyl/p/16924525.html

深入理解Kubernetes 4A - Authorization源码解析
Overview在Kubernetes中，当一个访问请求通过了登录阶段（Authentication），必须还需要请求拥有该对象的访问权限，而授权部分也是KubernetesAPI访问控制中的第二个部分Author......
java15源码-SynchronousQueue
一类图二构造方法publicSynchronousQueue(){this(false);}/***Createsa{@codeSynchronousQueue}withthespecifiedfairnesspoli......
scrapy
一、认识scrapy scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需实现少量的代码，就能实现数据的快速抓取scrapy使用了Twisted异步网络架构。......
Python爬虫学习-cnblog
Python爬虫学习Python的文件操作序列化与反序列化通过文件操作，我们可以将字符串写入到一个本地文件。但是如果是一个对象（列表、字典、元组等），就无法直接写入到一个文件中......
爬虫
企业项目类型#1面向互联网用户：商城类项目 -微信小程序商城#2面向互联网用户：二手交易类的 -咸鱼 -转转#3公司内部项目：python写的重点 -oa系统......
【2022-11-24】爬虫从入门到入狱(二)
一、request高级用法1.1ssl认证#证书验证(大部分网站都是https)importrequestsres=requests.get('https://www.12306.cn')#如果是ssl请求,首先检查证书是否......
爬虫从入门到入狱(二)
今日内容概要requests高级用法代理池搭建爬取某视频网站爬取新闻BautifulSoup4介绍bs4遍历文档树今日内容详细requests高级用法ssl认证#https和http有什......
Java之HttpClient调用WebService接口发送短信源码实战
摘要Java之HttpClient调用WebService接口发送短信源码实战一：接口文档二：WSDL三：HttpClient方法HttpClient方法一HttpClient方法二HttpClient方法三HttpClient方法四四：封装soap......
Dubbo源码-04-SPI
一DubboSPI核心核心实现都在ExtensionLoader中，比较重要的3个入口方法分别是ExtensionLoader#getExtensionLoader()扩展实现的加载器ExtensionLoader#getDefaultExte......
【爬虫】 requests高级用法，代理池，爬取视频和新闻
目录1.测试频率2.requests高级用法2.1ssl认证2.2实例2.3使用代理2.4超时设置2.5异常处理2.6上传文件3.代理池搭建3.1django后端获取客户端的ip4.爬取某视频网站......

Scrapy爬虫框架，入门案例（非常详细）源码

相关文章

赞助商

阅读排行