首页 > 编程语言 >Scrapy爬虫框架,入门案例(非常详细)源码

Scrapy爬虫框架,入门案例(非常详细)源码

时间:2022-11-25 11:26:30浏览次数:39  
标签:框架 实体 爬虫 抓取 Scrapy 源码 下载

一、概述
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试.

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫.

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持.

二、Scrapy五大基本构成:
Scrapy框架主要由五大组件组成,它们分别是调度器(Scheduler)、下载器(Downloader)、爬虫(Spider)和实体管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)。下面我们分别介绍各个组件的作用。

(1)、调度器(Scheduler):

调度器,说白了把它假设成为一个URL(抓取网页的网址或者说是链接)的优先队列,由它来决定下一个要抓取的网址是 什么,同时去除重复的网址(不做无用功)。用户可以自己的需求定制调度器。

(2)、下载器(Downloader):

下载器,是所有组件中负担最大的,它用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂,但效率高,主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。

(3)、 爬虫(Spider):

爬虫,是用户最关心的部份。用户定制自己的爬虫(通过定制正则表达式等语法),用于从特定的网页中提取自己需要的信息,即所谓的实体(Item)。 用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。

(4)、 实体管道(Item Pipeline):

实体管道,用于处理爬虫(spider)提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。

(5)、Scrapy引擎(Scrapy Engine):

Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。实际上,引擎相当于计算机的CPU,它控制着整个流程。

 

 

三、整体架构图
本图按顺序说明整个程序执行时候发生的顺序。

注意在调用下载器时,往往有一个下载器中间件,使下载速度提速。

 

官网架构图

 

 

 

四、Scrapy安装以及生成项目

新建一个项目,该项目的结构如下:

 

执行命令,widows和ubuntu命令格式是一样的:

下载方式

ubuntu,打开一个终端,输入pip install scrapy(或pip3 install scrapy)

widows ,打开一个cmd,输入pip install scrapy,前提是你装了pip

标签:框架,实体,爬虫,抓取,Scrapy,源码,下载
From: https://www.cnblogs.com/okeyl/p/16924525.html

相关文章

  • 深入理解Kubernetes 4A - Authorization源码解析
    Overview在Kubernetes中,当一个访问请求通过了登录阶段(Authentication),必须还需要请求拥有该对象的访问权限,而授权部分也是KubernetesAPI访问控制中的第二个部分Author......
  • java15源码-SynchronousQueue
    一类图二构造方法publicSynchronousQueue(){this(false);}/***Createsa{@codeSynchronousQueue}withthespecifiedfairnesspoli......
  • scrapy
    一、认识scrapy  scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需实现少量的代码,就能实现数据的快速抓取scrapy使用了Twisted异步网络架构。......
  • Python爬虫学习-cnblog
    Python爬虫学习Python的文件操作序列化与反序列化通过文件操作,我们可以将字符串写入到一个本地文件。但是如果是一个对象(列表、字典、元组等),就无法直接写入到一个文件中......
  • 爬虫
    企业项目类型#1面向互联网用户:商城类项目 -微信小程序商城#2面向互联网用户:二手交易类的 -咸鱼 -转转#3公司内部项目:python写的重点 -oa系统......
  • 【2022-11-24】爬虫从入门到入狱(二)
    一、request高级用法1.1ssl认证#证书验证(大部分网站都是https)importrequestsres=requests.get('https://www.12306.cn')#如果是ssl请求,首先检查证书是否......
  • 爬虫从入门到入狱(二)
    今日内容概要requests高级用法代理池搭建爬取某视频网站爬取新闻BautifulSoup4介绍bs4遍历文档树今日内容详细requests高级用法ssl认证#https和http有什......
  • Java之HttpClient调用WebService接口发送短信源码实战
    摘要Java之HttpClient调用WebService接口发送短信源码实战一:接口文档二:WSDL三:HttpClient方法HttpClient方法一HttpClient方法二HttpClient方法三HttpClient方法四四:封装soap......
  • Dubbo源码-04-SPI
    一DubboSPI核心核心实现都在ExtensionLoader中,比较重要的3个入口方法分别是ExtensionLoader#getExtensionLoader()扩展实现的加载器ExtensionLoader#getDefaultExte......
  • 【爬虫】 requests高级用法,代理池,爬取视频和新闻
    目录1.测试频率2.requests高级用法2.1ssl认证2.2实例2.3使用代理2.4超时设置2.5异常处理2.6上传文件3.代理池搭建3.1django后端获取客户端的ip4.爬取某视频网站......