下载中间件实战-Scrapy与Selenium结合
有的页面反爬技术比较高端,一时破解不了,这时我们就是可以考虑使用selenium来降低爬取的难度。
问题来了,如何将Scrapy与Selenium结合使用呢?
思考的思路: 只是用Selenium来帮助下载数据。因此可以考虑通过下载中间件来处理这块内容。
Spider文件
@classmethod
def from_crawler(cls, crawler, *args, **kwargs):
spider = super(BaiduSpider, cls).from_crawler(crawler, *args, **kwargs)
spider.chrome = webdriver.Chrome(executable_path='../tools/chromedriver.exe')
crawler.signals.connect(spider.spider_closed, signal=signals.spider_closed)
# connect里的参数
# 1. 处罚事件后用哪个函数处理
# 2. 捕捉哪个事件
return spider
def spider_closed(self, spider):
spider.chrome.close()
middlewares文件
def process_request(self, request, spider):
spider.chrome.get(request.url)
html = spider.chrome.page_source
return HtmlResponse(url = request.url,body = html,request = request,encoding='utf-8')
标签:中间件,Selenium,request,spider,Scrapy,crawler From: https://www.cnblogs.com/jiangjiayun/p/17503857.html