首页 > 编程语言 >【Python】爬虫实战-基于代理池的高并发爬虫

【Python】爬虫实战-基于代理池的高并发爬虫

时间:2023-01-30 19:33:38浏览次数:64  
标签:GitHub Python 爬虫 代理 queue 并发 session 线程

最近在写一个基于代理池的高并发爬虫,目标是用单机从某网站 API 爬取十亿级别的JSON数据。

代理池

有两种方式能够实现爬虫对代理池的充分利用:

  1. 搭建一个 Tunnel Proxy 服务器维护代理池
  2. 在爬虫项目内部自动切换代理

所谓 Tunnel Proxy 实际上是将切换代理的操作交给了代理服务器,很多市面上的代理软件都有此类功能。

如果要自行搭建可参考以下项目:

考虑到高并发,在爬虫项目内部切换代理更加灵活一些。代理池选一个能用的就行:GitHub - jhao104/proxy_pool

记得加上匿名校验:能否设置代理池只获取高匿IP · Issue #169 · jhao104/proxy_pool · GitHub

代理切换策略

如果简单的在多线程中对每个 requests.get() 使用不同的代理,那么一定会遇到内存泄露的问题:

即便写成:

session = requests.session()
response = session.get(url, headers=headers, proxies=proxies)
response.close()
session.close()

甚至在加上 gc.collect() 也无济于事。

因此需要控制创建 session 对象的数量,只在请求失败后切换代理和创建新的 session。

工作流程

① 主线程根据 URL 数量动态创建子进程,虚线框内为子进程任务

② crawler_task 为线程任务,执行发送请求和解析JSON

插入策略

每个子进程维护一个 url_queue 和 insert_queue。

线程会从 url_queue 取出URL执行爬取任务,由于JSON数据占用的空间不大,所以线程会先将每个 response 经过简单解析后存到列表中。

等到 url_queue 为空时(不要使用不安全的 queue.empty() 判断),get 方法会触发 Timeout 异常,然后线程会将列表插入到 insert_queue 中。

所有线程任务结束后,子进程再执行 executemany 将数据批量插入到 MySQL。

其他

爬取JSON数据产生的流量不大,但需要考虑 PPS(packet per second),如果网络设施不到位的话可能严重影响爬取效率。

网络上获取的免费代理大多是透明代理,如果使用开源项目 Proxy_Pool 作为代理池并加入匿名校验,可能会间歇性导致代理池没有可用代理。(所以最好还是从一些网络空间测绘引擎上通过特征抓取)

标签:GitHub,Python,爬虫,代理,queue,并发,session,线程
From: https://www.cnblogs.com/victorique-de-blois/p/17075801.html

相关文章

  • PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SV
    全文下载链接:http://tecdat.cn/?p=26219最近我们被客户要求撰写关于银行机器学习的研究报告,包括一些图形和统计输出。该数据与银行机构的直接营销活动相关,营销活动基于电......
  • python 获取命令行参数得方法
    方法一1.新建一个getopt_test.py文件importgetoptimportosimportsysdefmain(args):"""getopt(args,shortopts,longopts=[])shortopts:短格......
  • ActiveMQ高并发处理方案
    高并发发送消息异常解决方法:现象:使用10个线程每100ms发送一条消息,大约3000多条后,出现异常,所有线程停            止: javax.jms.JMSException:Couldnotco......
  • 使用GDB调试python调用的C++共享库
    目录1.首先编写python调用C++的demo2.gdb调试python程序3.全速运行程序4.查看堆栈信息当我们用Python调用C++的库,并且C++库中存在段错误崩溃时,首先想到的还是用gdb......
  • Python和C++联合调试
     python和c++分别在Linux和Windows下联合调试首先创建一个python测试项目和一个c++拓展项目一、在Windows下进行调试1.编译器安装2.C拓展模块安装3.调试......
  • python调用cpp 调试_python和C++联合调试
    python可以利用SO的方式去调用C++中的函数,但是需要一种调试方案来进行python和C++的联合调试,效果是直接在c++代码中打断点,然后python在进行c++so调用的时候,直接进入到断......
  • 一起调试 Python 和 C++
    大多数常规Python调试器支持仅调试Python代码。但是,实际上,Python结合C或C++一起使用时需要高性能或直接调用平台API的能力。(有关演练,请参阅创建适用于Pyth......
  • Linux的多线程下使用c/c++调用Python方法示例
    首先,所有python的函数都是用extern"C"定义的,因此对于C和C++,其使用是一样的。c语言调用python必须要有的API(不管有没有多线程):  PyRun_SimpleString//执行一段......
  • gdb同时调试python和c++
    说明:当我们的python程序的一些函数的后端实现为C++时(比如Pytorch,TensorFlow或tvm等)可以使用当前方法调试。有两种方式可以安装调试环境:一.搭建环境有两种方式搭建......
  • python的split函数切分字符串时为什么会产生空字符串
    群里的一个小伙伴提了一个问题,他使用split函数切分字符串得到的结果里有空字符串,他对空字符串的出现感到困惑不解。text='1aa2'print(text.split('a'))#['1','',......