scrapy分布式爬虫构建步骤

时间：2023-03-08 23:34:00浏览次数：43

分布式爬虫实现步骤：

1.安装一个scrapy-redis的组件

原生的scrapy不能实现分布式爬虫，必须要让scrapy结合scrapy-redis组件一起实现分布式爬虫。原因是因为原生的scrapy的调度器和管道不可以被分布式集群共享，不能实现集群之间整体的调度。scrapy-redis组件的作用可以给原生的scrapy框架提供可以被共享的管道和调度器。

2.实现流程

创建一个工程
创建一个基于CrawlSpider的爬虫文件
修改当前的爬虫文件：
- 导包：from scrapy_redis.spider import RedisCrewlSpider
- 将start_urls和allowed_domains进行注释
- 添加一个新的属性：redis_key='xxx' （可以被共享的调度器队列的名称）
- 编写数据解析相关的操作
- 将当前爬虫类的父类修改成RedisCrawlSpider
修改配置文件settings
- 指定使用可以被共享的管道：

ITEM_POPELINES={
‘scrapy_redis.pipelines.RedisPipeline': 400
}

- 指定调度器：
  - 增加一个去重容器类的配置，使用Redis的set集合来存储请求的数据，实现信息去重持久化

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

- - 使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.RFPDupeFilter"

- - 配置调度器是否要持久化，即爬虫结束，是否要清空redis中请求队列

SCHEDULER_PERSIST = True

- - 指定redis服务器：
    - 配置redis的配置文件redis.conf
      - 将bind 127.0.0.1删除
      - 关闭保护模式：protected-mode yes改为no
    - 启动redis
执行工程：
- scrapy runspider xxx.py
向调度器的队列中放入一个起始的url
- 调度器的队列在redis的客户端中：lpush xxx www.xxx.com

标签：xxx,redis,调度,爬虫,scrapy,分布式
From： https://www.cnblogs.com/jinbb/p/17196678.html

分布式数据库代理导出分片大表僵死或卡死原因分析及调优
1、背景现象****分布式数据库导出分片大表代理卡死或者代理僵死2、 ****分布式数据库导出小表或者不是分片表时发现数据可以导出，但是当数据量大时就没法导出数据，再复现一......
Java分布式应用：性能调优
第五部分性能调优性能瓶颈的表象：1.资源消耗过多、外部处理系统的性能不足2.资源消耗不多，但程序的响应速度不够关于CPU通常使用时间片、多核的方法达到对CPU的分割；每个C......
Java分布式应用：分布式Java应用与Sun JDK类库
第四部分分布式Java应用与SunJDK类库集合包CollectionList接口：List接口：List(有序、可重复)的实现类有ArrayList、Vector、LinkListArrayList、Vector底层是通过数组实现......
Java分布式应用：深入了解JVM
第三部分深入理解JVMJava代码的执行过程Java源码编译机制javac将java源码转换成javaclass字节码java运行javaclass字节码Java编译后产生的是字节码，在运行的时候将字......
Python中的爬虫究竟是什么？
其实所谓的上网就是用客户端的机器去请求目标网站的计算机，然后通过目标计算机反馈下载数据到本地的一个过程，只是用户获取数据时通过浏览器提交请求->下载网页代码->解析/......
如何提高爬虫工作效率
单进程单线程爬取目标网站太过缓慢，这个只是针对新手来说非常友好，只适合爬取小规模项目，如果遇到大型项目就不得不考虑多线程、线程池、进程池以及协程等问题。那么我们该如......
分布式事务-最大努力通知 20230307
......
2023爬虫学习笔记 -- m3u8视频下载
一、目标地址https://www.XXXX.com/二、获取mu38文件1、点击XHR，刷新页面，会看到这里有两个m3u8文件2、将m3u8地址复制到浏览器，会自动下载下来，index内容如下mixed内容如下3、......
Scrapy计划表
第一步Scrapy一览：理解Scrapy是什么，他能帮到你什么安装指南：在电脑上安装ScrapyScrapy教程：编写第一个Scrapy项目示例：通过前人写好的Scrapy项目进行学习基础概念命令行工具：学......
Word2vec之情感语义分析实战（part3）--利用分布式词向量完成监督学习任务
引言这篇博客将基于前面一篇博客Part2做进一步的探索与实战。demo代码与数据：传送门单词的数值化表示前面我们训练了单词的语义理解模型。如果我们深入研究就会发......

scrapy分布式爬虫构建步骤

分布式爬虫实现步骤：

1.安装一个scrapy-redis的组件

2.实现流程

相关文章

赞助商

阅读排行