首页 > 其他分享 >如何测试爬虫ip的可用性

如何测试爬虫ip的可用性

时间:2022-10-25 11:04:13浏览次数:51  
标签:http ip 可用性 爬虫 IP 白名单 curl

网络爬虫的应用极大的方便了人们,尤其是多线程多任务工作时,能够极大的提高信息采集工作效率。在使用爬虫IP时,经常会遇到代理时效的问题,那么我们该怎么检测代理是否正常 ?

静态独享、动态共享和动态独享通过API获取爬虫ip列表后,您就可以在程序里通过代理服务器获取网页数据。

隧道代理无需调用API获取代理,直接查看隧道的IP和端口号。

您获取的爬虫ip是这样的:122.96.59.105:23068 122.96.59.105 是代理服务器的IP地址;23068 是代理服务器的端口号。

爬虫IP验证

使用静态独享、动态独享和动态共享的IP需要进行授权验证,购买后只有通过您的用户名密码或设置您的IP白名单后才能使用。

隧道共享则是通过访问青果隧道服务器,服务器访问只对您的业务授权使用,同时支持用户名密码(Authkey和Authpwd)和IP白名单。

我们支持两种验证方式:

1、绑定您机器的IP作为白名单

如果是办公室电脑,可以访问 ip138.com 查询您的外网IP;

如果是Linux服务器,可以通过如下命令查看机器外网IP:curl https://d.qg.net/ip

进入平台中心,找到您所在的产品,管理白名单(包括添加删除白名单),白名单设置详情如下图:

image-20211026174537109image-20211026174620025

2、帐密验证

进入平台,在您所在的爬虫ip业务找到用于爬虫ip验证的用户名密钥信息(Authkey和Authpwd)。

image-20211026175216540

(1).HTTP代理

通过用户名密码的进行身份认证,格式如下:

curl -x http://{key}:{passwd}@{ip}:{port} {targetUrl}

http/https代理,-x 填写的协议头只能是http,不能是https,如果填写下面那样的格式,将无法访问

curl -x https://{ip}:{port} {targetUrl}

(2).SOCKS代理

curl -x socks5://{ip}:{port} {targetUrl}

curl返回的是未渲染的html内容,这属于正常现象,请参见代码样例 。

命令行测试

如果您的程序在Linux上运行,我们非常推荐您在命令行下先通过curl命令测试代理服务器的可用性,然后再进行编程。

例如您的用户名是huakeip,密码是huakeip2,提取到的爬虫ip是118.92.69.112:32105,IP白名单是36.90.191.92:32140,可执行如下命令测试代理可用性:

http/https代理,帐密模式

curl -x http://{authkey}:{authpwd}@{118.92.69.112}:{32105} {targetUrl}

http/https代理,白名单模式

curl -x http://{36.90.191.92}:{32140} {targetUrl}


标签:http,ip,可用性,爬虫,IP,白名单,curl
From: https://blog.51cto.com/u_13488918/5794151

相关文章

  • pycharm中使用pip报错:You should consider upgrading via the 'python -m pip install
    问题:在pycharm中使用pip命令安装时出现以下报错:解决办法:1.在python安装路径下找到site-packages文件夹下的类似pip-21.1.3.dist-info文件夹,将整个文件夹删掉 2.再在p......
  • 如何让爬虫通过本身工作原理持续工作
    我们知道,网络爬虫是指使用代码模拟真实用户发送网络请求,并获取数据的一个程序或者脚本。但如果不使用爬虫HTTP代理,很快就会被目标网站限制访问,那么,爬虫代理的工作原理......
  • selenium爬虫问题汇总
    基本框架fromseleniumimportwebdriverfromselenium.webdriver.common.byimportByfromselenium.webdriver.common.action_chainsimportActionChains#打开dri......
  • JavaScript学习--事件监听
    事件绑定方式一:通过HTML标签中的事件属性进行绑定<inputtype="button"onclick='on()'>functionon(){alert("我被点了");} 方式二:通过DOM元素属性绑定<inputty......
  • fzu_noip 1032 (无穷数-进位判定)
    无穷数时限:1s内存:32M★问题描述:我们生成两个无穷大的数,第一个数是把所有的自然数链接起来组成的数字;第二个数是把所有自然数的平方连接起来组成的数。对这两个数求和,如下: ......
  • fzu_noip 1036(磁盘碎片整理-Dp)
    磁盘碎片整理时限:1s内存:32M★问题描述:Jack最近在PS海报。海报所需各种素材不但让Jack头大,也让硬盘分区中的文件碎片越来越多,电脑的反应速度越来越慢。烦恼的Jack决定好好......
  • fzu_noip 1033 (作业问题-拼最大的2,3,5倍数)
    作业问题时限:1s内存:32M★问题描述:小T很喜欢数学,每天老师刚布置完作业,他就开始思考,今天他遇到了困难。现在有很多的数字,你的任务是找出由这些数字组成的最大的数,并且这个数......
  • fzu_noip 1039(盖楼-线段树)
    盖楼时限:1s内存:32M★问题描述:S举办了一场盖楼比赛,有n位选手参赛,将这n位选手编号为1到n。比赛刚开始时第i位选手的房子的初始高度为Ai,每过一天该选手的房子高度增加Bi。S想......
  • python中pip的用法
    1、安装库1pipinstall库名2、指定安装库的版本1pipinstall库名==版本3、将库更新到最新版本1pipinstall--upgrade库名4、将库更新到指定版本1pip......
  • Python为什么叫爬虫?
    因为python的脚本特性和易于配置,对字符的处理也非常灵活,加上python有丰富的网络抓取模块,所以叫爬虫。1、网络爬虫是指一种按照一定的规则,自动地抓取万维网信息的程序或者脚......