首页 > 其他分享 >Scrapy如何在启动时向爬虫传递参数

Scrapy如何在启动时向爬虫传递参数

时间:2023-07-17 11:57:17浏览次数:59  
标签:__ init 爬虫 传递 时向 Scrapy kwargs scrapy

高级方法:

一般方法:

运行爬虫时使用-a传递参数

scrapy crawl 爬虫名 -a key=values

然后在爬虫类的__init__魔法方法中获取kwargs

class Bang123Spider(RedisCrawlSpider):
    name = "bang123"
    allowed_domains = ["bang123.cn"]

    def __init__(self, *args, **kwargs):
        # kwargs可以传递参数,如何传递呢?运行爬虫命令时:scrapy crawl 爬虫名 -a key=values
        print(f"{args=}")
        print(f"{kwargs=}")
        super().__init__(*args, **kwargs)


方法2:

或则可以通过-s传递settings选项,然后在爬虫类中获取settings也可以!

scrapy crawl 爬虫名 -a key=values

标签:__,init,爬虫,传递,时向,Scrapy,kwargs,scrapy
From: https://www.cnblogs.com/juelian/p/17559678.html

相关文章

  • Scrapy框架爬取HTTP/2网站
    scrapy本身是自带支持HTTP2的爬取:https://docs.scrapy.org/en/latest/topics/settings.html?highlight=H2DownloadHandler#download-handlers-base需要把这个包安装一下#本身scrapy就是基于Twisted的,http2是一个拓展包Twisted[http2]>=17.9.0然后在settings.py中打开下载......
  • Scrapyd、scrapyd-client部署爬虫项目
    命令参考:https://github.com/scrapy/scrapyd-clienthttps://scrapyd.readthedocs.io安装组件pipinstallscrapydpipinstallscrapyd-clientScrapyd服务器端服务器端是可以有多个的,你爱多少个就搞多少个服务器端。部署scrapy时,可以手动指定部署到那个目标服务器端中。scr......
  • Scrapy框架架构
    ENGINE:引擎,负责各个组件的管理。SPIDERS:各个爬虫文件类。(我们一般要写的代码就是这个)。SCHEDULER:调度器,ENGINE将爬虫任务分发给该组件,由该组件调度爬虫任务。DOWNLOADER:下载器,用于接收SCHEDULER的任务,并向指定的URL发起请求然后返回响应数据给SPIDERS组件,交给SPIDER组件进一......
  • Scrapy创建项目、爬虫文件
    创建项目执行命令scrapystartproject<项目名>项目结构创建爬虫文件方式一:通过命令生成scrpaygenspider<爬虫名(必须唯一)><domain><爬虫名>:必须时唯一的<domain>:这个随意填,因为后期会修改爬虫文件中的start_url属性。方式二:在项目的spider包下,自己编写一......
  • Scrapy爬虫文件代码基本认识和细节解释
    importscrapyfromscrapy.http.requestimportRequestfromscrapy.http.response.htmlimportHtmlResponsefromscrapy_demo.itemsimportForumItemclassBaiduSpider(scrapy.Spider):#name必须是唯一的,因为运行一个爬虫是通过name来选择的。#你需要运行命......
  • 爬虫 | <Response [418]>原因
    在我们调用requests.get(网址)访问网页时,输出为<Response[418]>。是什么原因呢?如下运行代码:#导入访问网页要用的库importrequests#申明一个变量存储网址#网址是一个字符串变量,注意网址前后都必须有引号url='https://movie.douban.com'#用requests.get(网址)访问......
  • python爬虫抓取小说
    我这里是使用的requests模块和re(正则)模块可以模仿浏览器正常访问网页返回网页源码的方式,通过正则获取到小说的名字,以及每个章节名称和对应的网页链接,并将小说正文截取出来,写入到文本中,具体代码实现如下:#导入requests模块importrequests#导入re(正则)模块importre#下......
  • Scrapy 专题
    安装scrapy-pipinstallscrapy创建项目并创建spider,跑起来-scrapystartprojectscrapy_demo1-cdscrapy_demo1-scrapygenspiderbaidubaidu.com-scrapycrawlbaidu报错记录-AttributeError:module‘OpenSSL.SSL’hasnoattribute‘SSLv3_METHO......
  • 关于scrapy框架的学习
    最近打算参加一个爬虫比赛,特来研究爬虫,在掌握了爬虫的基本实现后,我们需要用一个更高效的方式来写爬虫这个时候便用到了爬虫框架scrapyscrapy是什么?Scrapy是一个应用程序框架,用于对网站进行爬行和提取结构化数据,这些结构化数据可用于各种有用的应用程序,如数据挖掘、信息处......
  • 「爬虫04」selenium
    1selenium等待元素加载#程序执行速度很快---》获取标签---》标签还没加载好---》直接去拿会报错#显示等待:当你要找一个标签的时候,给它加单独加等待时间#隐士等待:只要写一行,代码中查找标签,如果标签没加载好,会自动等待 browser.implicitly_wait(10)2selenium元素操作#......