最近打算参加一个爬虫比赛,特来研究爬虫,在掌握了爬虫的基本实现后,我们需要用一个更高效的方式来写爬虫
这个时候便用到了爬虫框架scrapy
scrapy是什么?
Scrapy是一个应用程序框架,用于对网站进行爬行和提取结构化数据,这些结构化数据可用于各种有用的应用程序,如数据挖掘、信息处理或历史存档。
尽管Scrapy最初是为 web scraping 它还可以用于使用API提取数据(例如 Amazon Associates Web Services )或者作为一个通用的网络爬虫。
在附上自己对scrapy几大组件的运行以及理解
接下来开始scrapy的教程
一.首先需要创建一个项目,选择要在其中存储代码并运行的目录
scrapy startproject gaokaoSpider(项目名,最好以目的+spider结尾)
注意:命令行要在这个带有scrapy.cfg的目录下运行命令行
二.创建爬虫
scrapy genspider gaokao(爬虫名字) gkcx.eol.cn(爬取数据的域名)
成功则会如下: