CrawlSpider(全站数据爬取)
-
实现网站的全站数据爬取
- 就是将网站中所有页码对应的页面数据进行爬取。
-
crawlspider其实就是scrapy封装好的一个爬虫类,通过该类提供的相关的方法和属性就可以实现全新高效形式的全站数据爬取。
-
使用流程:
-
新建一个scrapy项目
-
cd 项目
-
创建爬虫文件(*):
-
scrapy genspider-t crawl spiderName www.xxx.com
-
爬虫文件中发生的变化有哪些?
-
当前爬虫类的父类为CrawlSpider
-
class JianliSpider(CrawlSpider):
-
爬虫类中多了一个类变量叫做rules
-
link = LinkExtractor(allow=r"free_\d+\.html") rules = (Rule(link, callback="parse_item", follow=False))
- LinkExtractor:链接提取器
- 可以根据allow参数表示的正则在当前页面中提取符合正则要求的链接
- Rule:规则解析器
- 可以接收链接提取器提取到的链接,并且对每一个链接进行请求发送
- 可以根据callback指定的回调函数对每一次请求到的数据进行数据解析
- LinkExtractor:链接提取器
-
-
-