scrapy介绍
# requsets bs4 selenium 模块
# 框架 :django ,scrapy--->专门做爬虫的框架,爬虫界的django,大而全,爬虫有的东西,它都自带
-
安装
# 安装 (win看人品,linux,mac一点问题没有) -pip3.8 install scrapy -装不上,基本上是因为twisted装不了,单独装 1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs 3、pip3 install lxml 4、pip3 install pyopenssl 5、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/ 6、下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl 8、pip3 install scrapy
-
架构分析
爬虫:spiders(自己定义的,可以有很多),定义爬取的地址,解析规则 引擎:engine ---》控制整个框架数据的流动,大总管 调度器:scheduler---》要爬取的 requests对象,放在里面,排队 下载中间件:DownloaderMiddleware---》处理请求对象,处理响应对象 下载器:Downloader ----》负责真正的下载,效率很高,基于twisted的高并发的模型之上 爬虫中间件:spiderMiddleware----》处于engine和爬虫直接的(用的少) 管道:piplines---》负责存储数据
-
pycharm打开scrapy项目
# 创建出scrapy项目--下载scrapy会携带可执行文件 scrapy startproject firstscrapy # 创建项目 scrapy genspider 名字 网址 # 创建爬虫 等同于 创建app >scrapy genspider crewdel https://www.cnblogs.com/ # pycharm打开