【Python】爬虫实战-基于代理池的高并发爬虫

时间：2023-01-30 19:33:38浏览次数：68

标签：GitHub Python 爬虫代理 queue 并发 session 线程

最近在写一个基于代理池的高并发爬虫，目标是用单机从某网站 API 爬取十亿级别的JSON数据。

代理池

有两种方式能够实现爬虫对代理池的充分利用：

搭建一个 Tunnel Proxy 服务器维护代理池
在爬虫项目内部自动切换代理

所谓 Tunnel Proxy 实际上是将切换代理的操作交给了代理服务器，很多市面上的代理软件都有此类功能。

如果要自行搭建可参考以下项目：

考虑到高并发，在爬虫项目内部切换代理更加灵活一些。代理池选一个能用的就行：GitHub - jhao104/proxy_pool

记得加上匿名校验：能否设置代理池只获取高匿IP · Issue #169 · jhao104/proxy_pool · GitHub

代理切换策略

如果简单的在多线程中对每个 requests.get() 使用不同的代理，那么一定会遇到内存泄露的问题：

即便写成：

session = requests.session()
response = session.get(url, headers=headers, proxies=proxies)
response.close()
session.close()

甚至在加上 gc.collect() 也无济于事。

因此需要控制创建 session 对象的数量，只在请求失败后切换代理和创建新的 session。

工作流程

① 主线程根据 URL 数量动态创建子进程，虚线框内为子进程任务

② crawler_task 为线程任务，执行发送请求和解析JSON

插入策略

每个子进程维护一个 url_queue 和 insert_queue。

线程会从 url_queue 取出URL执行爬取任务，由于JSON数据占用的空间不大，所以线程会先将每个 response 经过简单解析后存到列表中。

等到 url_queue 为空时（不要使用不安全的 queue.empty() 判断），get 方法会触发 Timeout 异常，然后线程会将列表插入到 insert_queue 中。

所有线程任务结束后，子进程再执行 executemany 将数据批量插入到 MySQL。

其他

爬取JSON数据产生的流量不大，但需要考虑 PPS（packet per second），如果网络设施不到位的话可能严重影响爬取效率。

网络上获取的免费代理大多是透明代理，如果使用开源项目 Proxy_Pool 作为代理池并加入匿名校验，可能会间歇性导致代理池没有可用代理。（所以最好还是从一些网络空间测绘引擎上通过特征抓取）

标签：GitHub,Python,爬虫,代理,queue,并发,session,线程
From： https://www.cnblogs.com/victorique-de-blois/p/17075801.html

PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SV
全文下载链接：http://tecdat.cn/?p=26219最近我们被客户要求撰写关于银行机器学习的研究报告，包括一些图形和统计输出。该数据与银行机构的直接营销活动相关，营销活动基于电......
python 获取命令行参数得方法
方法一1.新建一个getopt_test.py文件importgetoptimportosimportsysdefmain(args):"""getopt(args,shortopts,longopts=[])shortopts：短格......
ActiveMQ高并发处理方案
高并发发送消息异常解决方法：现象：使用10个线程每100ms发送一条消息，大约3000多条后，出现异常，所有线程停止： javax.jms.JMSException:Couldnotco......
使用GDB调试python调用的C++共享库
目录1.首先编写python调用C++的demo2.gdb调试python程序3.全速运行程序4.查看堆栈信息当我们用Python调用C++的库，并且C++库中存在段错误崩溃时，首先想到的还是用gdb......
Python和C++联合调试
python和c++分别在Linux和Windows下联合调试首先创建一个python测试项目和一个c++拓展项目一、在Windows下进行调试1.编译器安装2.C拓展模块安装3.调试......
python调用cpp 调试_python和C++联合调试
python可以利用SO的方式去调用C++中的函数，但是需要一种调试方案来进行python和C++的联合调试，效果是直接在c++代码中打断点，然后python在进行c++so调用的时候，直接进入到断......
一起调试 Python 和 C++
大多数常规Python调试器支持仅调试Python代码。但是，实际上，Python结合C或C++一起使用时需要高性能或直接调用平台API的能力。（有关演练，请参阅创建适用于Pyth......
Linux的多线程下使用c/c++调用Python方法示例
首先，所有python的函数都是用extern"C"定义的，因此对于C和C++，其使用是一样的。c语言调用python必须要有的API(不管有没有多线程）： PyRun_SimpleString//执行一段......
gdb同时调试python和c++
说明：当我们的python程序的一些函数的后端实现为C++时（比如Pytorch,TensorFlow或tvm等）可以使用当前方法调试。有两种方式可以安装调试环境：一.搭建环境有两种方式搭建......
python的split函数切分字符串时为什么会产生空字符串
群里的一个小伙伴提了一个问题，他使用split函数切分字符串得到的结果里有空字符串，他对空字符串的出现感到困惑不解。text='1aa2'print(text.split('a'))#['1','',......

【Python】爬虫实战-基于代理池的高并发爬虫

代理池

代理切换策略

工作流程

插入策略

其他

相关文章

赞助商

阅读排行