首页 > 其他分享 >scrapy介绍

scrapy介绍

时间:2023-03-20 16:46:15浏览次数:31  
标签:pip3 爬虫 介绍 --- scrapy install 下载

scrapy介绍

# requsets  bs4 selenium  模块
 
# 框架 :django ,scrapy--->专门做爬虫的框架,爬虫界的django,大而全,爬虫有的东西,它都自带
  1. 安装

    # 安装 (win看人品,linux,mac一点问题没有)
    	-pip3.8 install  scrapy
        
        -装不上,基本上是因为twisted装不了,单独装
            1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs
            3、pip3 install lxml
            4、pip3 install pyopenssl
            5、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/
            6、下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
            7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
            8、pip3 install scrapy
    
  2. 架构分析

    	爬虫:spiders(自己定义的,可以有很多),定义爬取的地址,解析规则
    	引擎:engine ---》控制整个框架数据的流动,大总管
        调度器:scheduler---》要爬取的 requests对象,放在里面,排队
        下载中间件:DownloaderMiddleware---》处理请求对象,处理响应对象
        下载器:Downloader ----》负责真正的下载,效率很高,基于twisted的高并发的模型之上
        
        爬虫中间件:spiderMiddleware----》处于engine和爬虫直接的(用的少)
        管道:piplines---》负责存储数据
    

image

  1. pycharm打开scrapy项目

    # 创建出scrapy项目--下载scrapy会携带可执行文件
    	scrapy startproject firstscrapy  # 创建项目
        scrapy genspider 名字 网址        # 创建爬虫   等同于 创建app
         >scrapy genspider crewdel https://www.cnblogs.com/
        # pycharm打开
    

标签:pip3,爬虫,介绍,---,scrapy,install,下载
From: https://www.cnblogs.com/zhanglanhua/p/17236832.html

相关文章