首页 > 其他分享 >如何利用爬虫筛选高质量爬虫IP?

如何利用爬虫筛选高质量爬虫IP?

时间:2023-03-07 10:12:48浏览次数:41  
标签:used ip self 高质量 爬虫 proxy IP proxies

对于做数据抓取的技术员来说,如何稳定高效的爬取数据ip库池起到决定性作用,对于爬虫ip池的维护,可以从以下几个方面入手:

1、验证爬虫ip的可用性

可以通过requests库向目标网站发送请求,判断爬虫ip是否能够成功返回响应。如果返回成功,则说明爬虫ip可用,否则说明爬虫ip已失效。可以在代码中设置超时时间,避免长时间等待无响应的爬虫ip。

import requests
def check_proxy(proxy):
    try:
        response = requests.get(url, proxies=proxy, timeout=3)
        if response.status_code == 200:
            return Trueexcept:
        passreturn False

2、更新爬虫ip池

可以通过定期爬取爬虫ip网站或者购买付费爬虫ip服务来获取新的爬虫ip。可以使用requests库向爬虫ip网站发送请求,获取HTML页面,并使用BeautifulSoup库解析HTML页面,从而获取爬虫ip信息。通过一定的筛选规则,可以将新获取的爬虫ip加入到自有库池中。

import requests
from bs4 import BeautifulSoup
def get_proxies():
    url = 'http://jshk.com.cn/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
    table = soup.find('table', {'id': 'ip_list'})
    tr_list = table.find_all('tr')
    proxies = []
    for tr in tr_list[1:]:
        td_list = tr.find_all('td')
        ip = td_list[1].text
        port = td_list[2].text
        protocol = td_list[5].text.lower()
        proxy = '{}://{}:{}'.format(protocol, ip, port)
        proxies.append(proxy)
    return proxies

3、维护爬虫ip的质量

可以通过一些指标来衡量爬虫ip的质量,比如连接速度、响应时间、访问成功率等。可以定时对爬虫ip进行评估,筛选出质量较好的IP,并从爬虫ip池中删除质量较差的IP。

import requests
from multiprocessing import Pool
from functools import partial
def check_proxy_quality(proxy):
    try:
        response = requests.get(url, proxies=proxy, timeout=3)
        if response.status_code == 200:
            return True, response.elapsed.total_seconds()
    except:
        passreturn False, Nonedef evaluate_proxies(proxies):
    pool = Pool(processes=8)
    results = pool.map(partial(check_proxy_quality), proxies)
    pool.close()
    pool.join()
    quality_proxies = []
    for proxy, result in zip(proxies, results):
        is_valid, response_time = result
        if is_valid:
            quality_proxies.append((proxy, response_time))
    return quality_proxies

4、监控爬虫ip的使用情况

对于监控爬虫ip的使用情况,一种比较简单的方法是记录每个爬虫ip的使用次数和成功率,以便及时发现哪些爬虫ip不再可用或者质量较差。

可以使用Python内置的shelve模块,将爬虫ip的使用情况保存在一个本地文件中。shelve模块可以提供类似字典的数据存储方式,方便快捷地读取和写入数据。

以下是一个简单的示例代码:

import shelve
class ProxyManager:
    def __init__(self, filename='proxies.db'):
        self.filename = filename
        self.proxies = shelve.open(filename, writeback=True)
        if not self.proxies.get('used_proxies'):
            self.proxies['used_proxies'] = {}
    def mark_as_used(self, proxy):
        if proxy in self.proxies:
            self.proxies[proxy]['used_times'] += 1
            self.proxies[proxy]['success_rate'] = self.proxies[proxy]['success_times'] / self.proxies[proxy]['used_times']
        else:
            self.proxies[proxy] = {'used_times': 1, 'success_times': 0, 'success_rate': 0}
        self.proxies['used_proxies'][proxy] = True
    def mark_as_success(self, proxy):
        if proxy in self.proxies:
            self.proxies[proxy]['success_times'] += 1
            self.proxies[proxy]['success_rate'] = self.proxies[proxy]['success_times'] / self.proxies[proxy]['used_times']
        else:
            self.proxies[proxy] = {'used_times': 1, 'success_times': 1, 'success_rate': 1}
        self.proxies['used_proxies'][proxy] = True
    def is_used(self, proxy):
        return self.proxies['used_proxies'].get(proxy)
    def close(self):
        self.proxies.close()

在使用爬虫ip进行网络请求时,可以先检查该爬虫ip是否已被使用过。如果该爬虫ip已被使用过,则不再使用该爬虫ip。如果该爬虫ip未被使用过,则使用该爬虫ip进行网络请求,并在请求成功或失败后,更新该爬虫ip的使用情况。

以下是一个简单的示例代码:

def get_page(url, proxy_manager):
    for i in range(3):
        proxy = get_proxy(proxy_manager)
        if proxy:
            try:
                response = requests.get(url, proxies={'http': proxy, 'https': proxy}, timeout=3)
                if response.status_code == 200:
                    proxy_manager.mark_as_success(proxy)
                    return response.text
            except:
                pass
            proxy_manager.mark_as_used(proxy)
    return None
def get_proxy(proxy_manager):
    proxies = list(proxy_manager.proxies.keys())
    for proxy in proxies:
        if not proxy_manager.is_used(proxy):
            return proxy
    return None

需要注意的是,shelve模块的写入操作可能比较耗时,如果爬虫ip池较大,可以考虑每隔一段时间将爬虫ip使用情况保存在本地文件中,以提高性能。同时,如果爬虫ip池中存在较多已失效的爬虫ip,证明这个池子的IP可用率已经极低了,还是会更建议大家伙使用优质厂商提供的爬虫ip。

正常情况下,很多人会说随着经济下行,能有使用的就已经不错了,还谈什么自行车,且不谈免费的爬虫ip的连通性,实际上只要选对爬虫ip,采购的成本也会在我们的承受范围内的。 

标签:used,ip,self,高质量,爬虫,proxy,IP,proxies
From: https://www.cnblogs.com/q-q56731526/p/17187077.html

相关文章

  • javascript之web worker
    众所周知,js最初设计是运行在浏览器中的,为了防止多个线程同时操作DOM,带来渲染冲突问题,所以js执行器被设计成单线程。但随着前端技术的发展,js能力远不止如此,当我们遇到需要大......
  • Python爬虫系列之Session和cookie的使用
    对于经常做数据采集的技术员来说,常常遇到采集的页面限制我们的访问,尤其在频繁刷新或者访问一个页面时会引起网站的一些列反爬措施。今天我们就来谈谈Session和cookie的......
  • eclipse安装及配置jdk、tomcat
    一、安装eclipse:(安装之前一定要确认jdk是否安装,没安装的一定要安装)官网下载:EclipseDownloads|TheEclipseFoundation下载好如图安装程序:        ......
  • shell获取所有ipv4地址
    需要安装jqubuntu@gooderver:~$ip-j-4addrshow|jq'.[]|.addr_info|.[]|.local'"127.0.0.1""172.24.64.162"ubuntu@gooderver:~$ip-j-6addrshow|jq'.[]......
  • 获取外网ip地址
    通过TIdHTTP空间的Get访问外网IP查询procedureTForm1.Button1Click(Sender:TObject);varstxt:string;i,i2:integer;begin//如果访问出现“HTTP1.1/403......
  • [工具/软件]开源爬虫框架
    0概述1JavaSpiderspider-flowHomeURL:https://www.spiderflow.org/spider-flow是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫Githu......
  • typescript 解决变量多类型访问属性报错--工作随记
    一个变量类型允许是多个类型,如果访问某个类型的属性,编辑器会直接提示错误比如变量tuple可能为string或number类型,如果直接访问tuple.toFixedconstmixedTupleTypeA......
  • 跨端开发新选择:Flutter与FinClip,让应用开发更高效、更实用
    为什么说flutter是一个强大的跨端框架?Flutter是一个基于Dart编程语言的移动应用程序开发框架,由Google开发。它的强大之处在于它可以快速构建高性能、美观、灵活的跨平台......
  • JavaScript对象及面向对象基础(对象、构造函数、原型对象、继承、原型链、借用构造函数
    JavaScript是一种描述性语言,是一种基于对象和事件驱动的,具有安全性能的脚本语言。JavaScript语言是通过一种叫做“原型”的方式来实现面向对象编程的。一、对象(1)内置对象Str......
  • ipv4
    IPv4概述IP协议(InternetProtocol)是TCP/IP协议族中最核心的协议,提供不可靠的、无连接的、尽力而为的数据报传输服务。IPv4报文格式01......