Spider理论系列--Scrapy框架介绍

时间：2023-05-26 21:31:49浏览次数：48

标签：框架 -- 中间件 scrapy Spider --- Scrapy 引擎爬虫

Scrapy框架

一、前言

无论什么技术，都是有框架的，而框架我的理解就是程序员为了简化开发而封装好的一个集合。而本次的Scrapy框架就是封装好的爬虫框架。

1、介绍

前面我们学习了基础的爬虫实现方法和selenium以及mongodb数据库，那么接下来会我们学习一个上场率非常高的爬虫框架：scrapy

2、内容

scrapy的基础概念和工作流程
scrapy入门使用

二、scrapy的概念和流程

1、为什么学习scrapy？

能够让开发过程方便、快速
scrapy框架能够让我们的爬虫效率更高

2、什么是scrapy？

文档地址：https://docs.scrapy.org/en/latest/

Scrapy 使用了Twisted['twɪstɪd]异步网络框架，可以加快我们的下载速度。

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量代码，就能够快速抓取。

3、异步和非阻塞的区别

前面我们说Twisted是一个异步的网络框架，经常我们也听到一个词语叫做非阻塞，那么他们有什么区别呢？

Spider理论系列--Scrapy框架介绍_python

异步：调用在发出之后，这个调用就直接返回，不管有无结果；异步是过程。 非阻塞：关注的是程序在等待调用结果（消息，返回值）时的状态，指在不能立刻得到结果之前，该调用不会阻塞当前线程。

4、scrapy的工作流程

4.1 回顾之前的爬虫流程

Spider理论系列--Scrapy框架介绍_python_02

这也就是我之前一直在用的逻辑。

4.2 上面的流程可以改写为

Spider理论系列--Scrapy框架介绍_python_03

4.3 scrapy的流程

Spider理论系列--Scrapy框架介绍_python_04

其流程可以描述如下：

调度器把requests-->引擎-->下载中间件--->下载器
下载器发送请求，获取响应---->下载中间件---->引擎--->爬虫中间件--->爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件--->引擎--->调度器
爬虫提取数据--->引擎--->管道
管道进行数据的处理和保存

注意：

图中绿色线条的表示数据的传递
注意图中中间件的位置，决定了其作用
注意其中引擎的位置，所有的模块之前相互独立，只和引擎进行交互

4.4 scrapy中每个模块的具体作用

Spider理论系列--Scrapy框架介绍_Scarpy_05

小结

scrapy的概念：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架
scrapy框架的运行流程以及数据传递过程：

调度器把requests-->引擎-->下载中间件--->下载器
下载器发送请求，获取响应---->下载中间件---->引擎--->爬虫中间件--->爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件--->引擎--->调度器
爬虫提取数据--->引擎--->管道
管道进行数据的处理和保存

scrapy框架的作用：通过少量代码实现快速抓取
掌握scrapy中每个模块的作用：
引擎(engine)：负责数据和信号在不同模块间的传递调度器(scheduler)：实现一个队列，存放引擎发过来的request请求对象
下载器(downloader)：发送引擎发过来的request请求，获取响应，并将响应交给引擎
爬虫(spider)：处理引擎发过来的response，提取数据，提取url，并交给引擎
管道(pipeline)：处理引擎传递过来的数据，比如存储
下载中间件(downloader middleware)：可以自定义的下载扩展，比如设置代理ip
爬虫中间件(spider middleware)：可以自定义request请求和进行response过滤
理解异步和非阻塞的区别：异步是过程，非阻塞是状态

标签：框架,--,中间件,scrapy,Spider,---,Scrapy,引擎,爬虫
From： https://blog.51cto.com/u_15915681/6359151

孪生素数
一问题描述相差为2的两个素数成为一对孪生素数，求出一千以内的孪生素数。二设计思路设计一个函数调用判断两个相差2的数是否是孪生素数。三程序流程图四伪代码实现#include<iostream>#include<math.h>usingnamespacestd;intprime(intn){ intj; longk;k=sqrt(n)+1; ......
长亭雷池waf社区版搭建
dockerversion#检查docker版本执行以下命令创建并进入雷池安装目录mkdir-psafeline#创建safeline目录cdsafeline#进入safeline目录执行以下命令，将会自动下载镜像，并完成环境的初始化curl-fsSLkhttps://waf-ce.chaitin.cn/release/latest/setup.sh|bash执行......
c++打卡第三十八天
一、歌星大奖赛1、问题描述 2、设计思路我们可以定义数组，存储十个评委所打的分数，输入十个数值，对这十个数值进行排序，然后去掉数组的首尾，计算的总和除以8计算得分数的平均数。3、流程图 4、代码实现#include<iostream>usingnamespacestd;intmain(){inta[10];......
8. 字符串转换整数 (atoi)
请你来实现一个myAtoi(strings)函数，使其能将字符串转换成一个32位有符号整数（类似C/C++中的atoi函数）。函数myAtoi(strings)的算法如下：读入字符串并丢弃无用的前导空格检查下一个字符（假设还未到字符末尾）为正还是负号，读取该字符（如果有）。确定最终结果是负数还是正数。......
pwn1_sctf_2016
先检查一下开了什么保护机制打开32位ida看看这个是啥鸭，像这种c++的代码最难看了，只能一个函数一个函数的百度我在这边简述一下，这些函数一大串就是实现了把s数组中的I整体替换成了you，其他的就没了，然后我们先去找找有没有后门函数之类的找到了一个叫做get_flag的函数，打开一看......
drf全局异常处理，接口文档，jwt介绍和原理，base64编码和解码
drf全局异常处理：只要三大认证，视图类的方法出了异常，都会执行一个函数：rest_framework.viewsimportexception_handlersetting：REST_FRAMEWORK={'EXCEPTION_HANDLER':'app01.exception.commn_exception_handler',#导入自己写的异常类的路径}......
ThreadLocal源码学习笔记
系列文章目录和关于我一丶ThreadLocal结构#每一个Thread对象都有一个名为threadLocals类型为ThreadLocal.ThreadLocalMap的属性，ThreadLocal.ThreadLocalMap对象内部存在一个Entry数组，其中存储的Entry对象key是ThreadLocal,value便是我们绑定在线程上的值。ThreadLocal可以做......
前端树形结构图组件 tree组件，可拖拽移动，点击展开收缩，无限添加子集
快速实现树形结构图组件tree组件，可拖拽移动，点击展开收缩，无限添加子集;下载完整代码请访问uni-app插件市场地址：https://ext.dcloud.net.cn/plugin?id=12650效果图如下: 实现代码如下:#treeShapeStruct树形结构图，可拖拽移动，点击展开收缩，无限添加子集使用方法####HTM......
CMake vs Makefile: 如何选择适合你的项目构建工具
在软件开发中，构建（build）是一个非常重要的过程。我们需要将源代码转换为可执行文件或库文件。为了完成此过程，我们通常使用构建工具来自动化构建过程。CMake和Makefile都是用于构建和管理软件项目的工具。CMake是一个跨平台的构建工具，它可以自动生成Makefile，而Makefile是一个GNU工具......
检测手机系统是iOS还是android(可实现根据手机系统跳转App下载链接)
快速实现检测手机系统是iOS还是android(可实现根据手机系统跳转App下载链接);下载完整代码请访问uni-app插件市场地址：https://ext.dcloud.net.cn/plugin?id=12652效果图如下: 实现代码如下:#使用方法####HTML代码部分```html<template><viewclass="content">......