利用代理解决爬虫目标网站封ip的问题,可以使用免费的代理或者付费的代理ip,对于不可用的ip无法及时识别,可以通过搭建ip代理池提高爬虫的工作效率。
1、首先所需redis库安装,redis是基于内存的高效的非关系型数据库。
github下载地址:版本 3.2.100 ·微软存档/Redis ·GitHub的,切后台查看是否安装成功。
2、安装aiohttp
requests库是一个阻塞式http请求库,发送最后一个请求后,程序会一直等待服务器响应,知道的带响应后,程序才会进行下一步处理。过程会比较耗时间,程序可以在等待的过程中做些其他事情,所以比较局限。
aiohttp是提供一个异步的web服务的库,使用异步请求库进行数据抓取时,会大大提高效率。
3、redis-py
pip install redis 使用redis库与redis进行交互。
拓展:redisdump 是用于redis数据导入、导出的工具,是基于ruby实现的。
4、pyquery 解析库 pip3 install pyquery
5、web库安装 flask
flask是个轻量级web的程序,操作简单、易用、灵活,主要用于API服务。
pip install flask
标签:web,池所,ip,redis,代理,install,安装 From: https://www.cnblogs.com/lvjing/p/17930714.html