网络爬虫的应用极大的方便了人们,尤其是多线程多任务工作时,能够极大的提高信息采集工作效率。在使用爬虫IP时,经常会遇到代理时效的问题,那么我们该怎么检测代理是否正常 ?
静态独享、动态共享和动态独享通过API获取爬虫ip列表后,您就可以在程序里通过代理服务器获取网页数据。
隧道代理无需调用API获取代理,直接查看隧道的IP和端口号。
您获取的爬虫ip是这样的:122.96.59.105:23068 122.96.59.105 是代理服务器的IP地址;23068 是代理服务器的端口号。
爬虫IP验证
使用静态独享、动态独享和动态共享的IP需要进行授权验证,购买后只有通过您的用户名密码或设置您的IP白名单后才能使用。
隧道共享则是通过访问青果隧道服务器,服务器访问只对您的业务授权使用,同时支持用户名密码(Authkey和Authpwd)和IP白名单。
我们支持两种验证方式:
1、绑定您机器的IP作为白名单
如果是办公室电脑,可以访问 ip138.com 查询您的外网IP;
如果是Linux服务器,可以通过如下命令查看机器外网IP:curl https://d.qg.net/ip
进入平台中心,找到您所在的产品,管理白名单(包括添加删除白名单),白名单设置详情如下图:
image-20211026174537109image-20211026174620025
2、帐密验证
进入平台,在您所在的爬虫ip业务找到用于爬虫ip验证的用户名密钥信息(Authkey和Authpwd)。
image-20211026175216540
(1).HTTP代理
通过用户名密码的进行身份认证,格式如下:
curl -x http://{key}:{passwd}@{ip}:{port} {targetUrl}
http/https代理,-x 填写的协议头只能是http,不能是https,如果填写下面那样的格式,将无法访问
curl -x https://{ip}:{port} {targetUrl}
(2).SOCKS代理
curl -x socks5://{ip}:{port} {targetUrl}
curl返回的是未渲染的html内容,这属于正常现象,请参见代码样例 。
命令行测试
如果您的程序在Linux上运行,我们非常推荐您在命令行下先通过curl命令测试代理服务器的可用性,然后再进行编程。
例如您的用户名是huakeip,密码是huakeip2,提取到的爬虫ip是118.92.69.112:32105,IP白名单是36.90.191.92:32140,可执行如下命令测试代理可用性:
http/https代理,帐密模式
curl -x http://{authkey}:{authpwd}@{118.92.69.112}:{32105} {targetUrl}
http/https代理,白名单模式
curl -x http://{36.90.191.92}:{32140} {targetUrl}