首页 > 编程语言 >python爬虫scrapy之如何同时执行多个scrapy爬行任务

python爬虫scrapy之如何同时执行多个scrapy爬行任务

时间:2024-03-11 18:14:42浏览次数:33  
标签:name python workSpider 爬虫 spider process scrapy print

来源:https://www.shanhubei.com/archives/23601.html

1、顺序执行:

from scrapy.cmdline import execute
 
execute(['scrapy','crawl','httpbin'])

2、同时进行

    setting = get_project_settings()
    process = CrawlerProcess(setting)
    didntWorkSpider = ['sample']
    workSpider = ['gochinaz', 'gochinaz2', 'gochinaz3', 'gochinaz4', 'gochinaz5', 'gochinaz6', 'gochinaz7', 'gochinaz8']

    print("运行中...")
    for spider_name in process.spiders.list():
        if spider_name in workSpider:
            print("Running spider %s" % (spider_name))
            process.crawl(spider_name)
    process.start()

标签:name,python,workSpider,爬虫,spider,process,scrapy,print
From: https://www.cnblogs.com/shanhubei/p/18066700

相关文章

  • Python实现企业微信自动打卡程序二:跳过节假日,随机打卡时间,定时任务,失败通知
    一、介绍在上节Python实现企业微信上下班自动打卡程序内容之后,我们继续优化自动打卡程序。接下来增加如下内容:实现打卡时间随机范围处理节假日不打卡的情况实现定时调度打卡打卡成功或失败通知自己二、实现打卡时间随机范围既然我们程序写完后需要定时执行,那定时执行打......
  • Logstash接收udp/tcp数据 python+ udp/tcp +logstash +elasticsearch
    Logstash接收udp/tcp数据背景:在 Logstash数据源为日志文件操作 基础上进行一、配置文件1.D:\usr\local\etc\logstash\pipeline1目录下logstash.conf文件配置input{stdin{}udp{host=>"0.0.0.0"#从5000端口获取日志port=>5000......
  • C# 启动 Python 不能及时获取输出信息
    结论:在print函数前加上sys.stdout.flush()。有的说加载print之后,都可以试试。fromtimeimportsleepimportsysif__name__=="__main__":sys.stdout.flush()print("Start")foriinrange(10000):#sys.stdout.write(str(i))sys.stdo......
  • python的一些设置
    一1全局设置pip加速。查找pip.ini文件,添加以下代码[global]index-url=http://pypi.tuna.tsinghua.edu.cn/simple/[install]trusted-host=pypi.tuna.tsinghua.edu.cn2执行poetryinstall命令单个项目:pyproject.toml文件加入以下内容可以加速[[tool.poetry.sourc......
  • Python - PyCharm支持的4种Python Interpreter和配置方法
    原文地址https://blog.csdn.net/qq_41498261/article/details/109112331 1.VirtualenvEnvironment1.1VirtualenvEnvironment是什么?1.2如何使用VirtualenvEnvironment?1.2.1.Newenvironment1.2.2.Existingenvironment2.CondaEnvironment2.1CondaEnvironment是什么......
  • python 有关于四舍五入,四舍六入的内容
    一、简介二、内容三、问题 一、简介最近看书看到了,有关python 内置的函数round取小数点的问题。书上描述的是四舍五入,然后又说,‘四舍五入’只是个约定的说法,并非所有的.5都会被进位。然后我再上网查了下,才知道,之前使用的四舍五入后面,还有个四舍六入五成双......
  • linux 通过python 命令定时删除文件,不通过crontab
    importosimporttimelog_dir="/var/log/"defdelete_expired_logs():current_time=time.localtime()print(current_time.tm_hour)ifcurrent_time.tm_hour==12andcurrent_time.tm_min==30:print('xxxxxxxxxx')......
  • python json格式转url参数&分割, url参数转json格式
    前言全局说明一、json格式转url参数&分割>>>fromurllib.parseimporturlencode>>>params={'user':'admin','pwd':'123456'}>>>print(urlencode(params))二、url参数转json格式>>>importj......
  • [oeasy]python0010_怎么用命令行保存文件
    编写py文件......
  • Pycharm:terminal中python不是内部或外部命令
    问题在外部cmd中,可以正常使用python进入编辑模式。但是在pycharm的terminal中,使用python却报错:python不是内部或外部命令。原因未知,猜测是Pycharm的terminal无法正确读取环境变量,导致只能读取本目录下命令。解决方案File→Settings→Tools→Terminal把Startdirectory改为......