标签：wheel 框架 Scrapy Spider scrapy 引擎安装下载

一、Scrapy前言

Scrapy 是由 Python 语言开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据，只需要实现少量的代码，就能够快速的抓取。

目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy 是基于twisted框架开发而来，twisted是一个流行的事件驱动的python网络框架。

因此Scrapy使用了一种非阻塞（又名异步）的代码来实现并发。

Scrapy框架类似于Django框架

二、Scrapy整体架构

1、框架解释

✅ Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

✅ Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

✅ Downloader（下载器）:负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，

✅ Spider（爬虫）:它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器).

✅ Item Pipeline(管道):它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

✅ Downloader Middlewares（下载中间件）:你可以当作是一个可以自定义扩展下载功能的组件。

✅ Spider Middlewares（Spider中间件）:你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

感兴趣的可以对官网进行深度了解

官网链接：https://docs.scrapy.org/en/latest/topics/architecture.htm

2、运行流程

数据流(Data flow)，Scrapy中的数据流由执行引擎（ScrapyEngine）控制，其过程如下:

引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
引擎向调度器请求下一个要爬取的URL。
调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。
引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。
(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站

三、Scrapy安装

1、windows系统首先尝试

pip3 install scrapy

如果直接安装失败的话，再次尝试以下方法

2、windows系统再次尝试

（1）安装wheel文件

在 Windows 平台上安装 Scrapy 之前
- 首先需要安装 wheel 文件。wheel 文件是一种 Python 包的分发格式，可以方便地进行安装。
- 可以通过以下命令来安装 wheel：

pip3 install wheel

（2）安装 lxml 解析器

Scrapy 使用 lxml 解析器来进行 HTML 和 XML 的解析工作。
要安装 lxml，可以执行以下命令：

pip3 install lxml

（3）安装 pyopenssl

Scrapy 在进行 HTTPS 请求时，需要使用 pyopenssl 模块来提供 SSL/TLS 支持。
安装 pyopenssl 可以使用以下命令：

pip3 install pyopenssl

（4）下载并安装pywin32

下载并安装 pywin32 可以从其官网下载最适合您的版本：https://sourceforge.net/projects/pywin32/files/pywin32/
请根据您的操作系统和Python版本选择正确的安装文件进行下载。
下载完成后，按照安装向导进行安装。

（5）下载twisted的wheel文件

要安装 Scrapy，需要先下载 twisted 的 wheel 文件。
可以从官方网站下载 twisted 的 wheel 文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
请注意选择与您的Python环境相匹配的 wheel 文件进行下载。

（6）安装twisted

下载完成 twisted 的 wheel 文件后，可以使用以下命令安装 twisted：

pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd**.whl

将 下载目录 替换为您实际下载 twisted wheel 文件所在的目录

并根据您的 Python 环境选择正确的文件名进行替换。

（7）安装scrapy

当上述依赖项都安装完成后，可以使用以下命令来安装 Scrapy：

pip3 install scrapy

3、Linux系统

在 Linux 平台上安装 Scrapy，可以直接通过以下命令进行安装：

pip3 install scrapy

标签：wheel,框架,Scrapy,Spider,scrapy,引擎,安装,下载
From： https://www.cnblogs.com/xiao01/p/18116249

scrapy框架之介绍与安装