爬虫使用http代理

时间：2023-05-05 11:05:35浏览次数：45

标签：http ip 数据库爬虫代理 API 随机 IP

1、每个过程从接口中随机取出IP列表，重复使用。失败后，调用API获取。

一般逻辑如下:

（1）每个过程，从接口中随机取回部分ip，反复尝试ip目录以获取数据；

（2）如果访问成功，继续抓住下一个。

（3）如果失败，从界面取一批IP，继续尝试。

方案缺点:每个IP都有截止日期。如果提取100个，使用第20个，剩下的大部分可能无法使用。如果设置HTTP请求时连接时间超过3秒，读取时间超过5秒，可能需要3-8秒，3-8秒内可能会抓取几百次。

2、每个过程从界面随机取一个IP使用。如果失败，调用API获取IP。

一般逻辑如下:

（1）每个过程，从界面随机取回一个ip，使用它浏览资源，

（2）如果访问成功，继续抓住下一个。

（3）如果失败，随机从界面取一个IP，继续尝试。

方案缺点:调用API获取IP非常频繁，会对代理服务器造成很大压力，影响API接口的稳定性，可能会限制提取。这个方案不适合，不能长期稳定运行。

3、首先提取大量IP导入本地数据库，从数据库中提取IP。

一般逻辑如下:

（1）在数据库中建立一个表格，写一个导入脚本，每分钟需要多少个API(咨询代理IP服务提供商的建议)，并将IP列表导入数据库。

（2）记录导入时间、IP、Port、过期时间、IP可用状态等字段；

（3）写一个抓取脚本，从数据库中读取可用的IP，每个过程从数据库中获取一个IP供使用。

执行抓取、判断结果、处理cookie等。，只要有验证码或失败，就放弃ip，重新更换ip。

#! -*- encoding:utf-8 -*-

    import requests

    # 要访问的目标页面
    targetUrl = "http://ip.hahado.cn/ip"

    # 代理服务器
    proxyHost = "ip.hahado.cn"
    proxyPort = "39010"

    # 代理隧道验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }

    resp = requests.get(targetUrl, proxies=proxies)

    print resp.status_code
    print resp.text

爬虫使用http代理_API

标签：http,ip,数据库,爬虫,代理,API,随机,IP
From： https://blog.51cto.com/u_15822686/6245032

利用Python爬虫采集1688商品详情数据 +商品列表数据+商品API接口（支持全网）
一、如何通过手动方式查看1688商品详情页面的数据1.1688商品详情API接口（item_get-获得1688商品详情接口），1688API接口代码对接可以获取到宝贝ID，宝贝标题，价格，掌柜名称，库存，最小购买数，宝贝链接，宝贝图片，品牌名称，商品详情，详情图片等页面上有的数据均可以获取到，手动方式如下：例......
java 实现简单的http客户端
1、废话不多说，代码如下packagecom.linhuaming.test;importjava.io.InputStream;importjava.io.OutputStream;importjava.net.MalformedURLException;importjava.net.Socket;importjava.net.URL;/***http客户端测试*/publicclassHttpClientTest{pub......
Python爬虫scrapy框架教程
Scrapy是一个Python爬虫框架，用于提取网站上的数据。以下是使用Scrapy构建爬虫的基本步骤：安装Scrapy：在终端中运行pipinstallscrapy创建一个新项目：在终端中运行scrapystartprojectprojectname创建一个爬虫：在项目文件夹中运行scrapygenspiderspidername http://website.co......
Python爬虫scrapy框架教程
Scrapy是一个Python爬虫框架，用于提取网站上的数据。以下是使用Scrapy构建爬虫的基本步骤：安装Scrapy：在终端中运行pipinstallscrapy创建一个新项目：在终端中运行scrapystartprojectprojectname创建一个爬虫：在项目文件夹中运行scrapygenspiderspidername http://website.com编......
Python爬虫常用框架
大家都知道python是一门多岗位编程语言，学习python之后可以从事的岗位有很多，python爬虫便在其中，不过很多人对python不是很了解，所以也不知道python爬虫是什么，接下来小编为大家介绍一下。Python是一门非常适合开发网络爬虫的编程语言，相比于其他静态编程语言，Python抓取网页文档的接口更......
使用nginx配置https域名证书
安装SSL模块要在nginx中配置https，就必须安装SSL模块，也就是:http_ssl_module。进入到nginx的解压目录新增SSL模块（原来的那些模块需要保留）./configure\--prefix=/usr/local/nginx\--pid-path=/var/run/nginx/nginx.pid\--lock-path=/var/lock/nginx.local\--e......
极简爬虫通用模板
网络爬虫的一般步骤如下：1、确定爬取目标：确定需要爬取的数据类型和来源网站。2、制定爬取策略：确定爬取哪些网页、如何爬取和频率等。3、构建爬虫程序：使用编程语言（如Python）实现爬虫程序，通过HTTP请求获取网页内容，并进行解析和处理。4、数据存储：将爬取到的数据存储到数据库或文件......
nginx的反向代理缓存
#proxy_cache_path设置缓存保存的目录#keys_zone设置共享内存以及占用的空间大小#max_size设置缓存大小#inactive超过此时间，则缓存自动清理#use_temp_path关闭临时目录proxy_cache_path/usr/local/nginx/upstream_cachekeys_zone=myca......
Python_17 OSI模型和HTTP协议
一、查缺补漏 1.Wireshark抓报文 2.要学习的所有博客： http://testingpai.com/member/haili/articles二、OSI模型 1.物理层 2.数据链路层 3.网络层 4.传输层：TCP（靠谱的传输协议，传输有限） UDP（广播协议会丢包，不是很靠谱，但是可以传输......
http数据包
http数据包HTTP由请求和响应两部分组成，所以对应的也有两种报文格式。下面分别介绍HTTP请求报文格式和HTTP响应报文格式手边正好有抓的一个包（buu的）请求头POST/LoginHTTP/1.1Host:79fd8c0f-490b-4f57-9847-41eccb7bf59d.node4.buuoj.cn:81User-Agent:Mozilla/5.0(X1......

爬虫使用http代理

相关文章

赞助商

阅读排行