首页 > 其他分享 >如何少花钱维护爬虫ip

如何少花钱维护爬虫ip

时间:2022-12-16 11:06:39浏览次数:37  
标签:花钱 ip 转发 爬虫 command PROXY IP

作为深耕在爬虫行业的程序员来说,保证代码稳定运行不仅需要深厚的爬虫功底,爬虫防反爬也是至关重要,为了能够有效高速爬取数据,必须要有一个稳定的爬虫ip池支撑。那么如何维护好爬虫ip池呢?怎么样才能事半功倍?

1、网上抓取免费爬虫ip

对爬虫ip进行验证,通过爬虫程序验证爬虫ip是否可用,把能用的爬虫ip列表。但是网上抓取的爬虫ip,可用性都很少,所以需要不间断的抓取爬虫ip,以保障自己的爬虫ip池有足够的ip使用。

2、购买动态隧道转发爬虫ip

网上抓取的免费爬虫ip可用率都很小。对爬虫业务使用没有实际的效果。想要让自己的爬虫业务能更加稳定的采集,这时候就需要在网上找一些优质爬虫ip商,进行高匿隧道转发爬虫爬虫ip购买。一般优质爬虫ip商的隧道转发爬虫ip都是过滤掉了无效IP,每个IP都是真实有效,通过隧道转发爬虫ip来填充自己的IP池,以保障自己的爬虫能稳定采集业务。

3、自建爬虫ip服务器

如果不愿意购买花钱的爬虫ip,愿意花钱的,也可以自己购买爬虫ip远程桌面来获取IP。

隧道转发爬虫ip维护:

<?php    
namespace App\Console\Commands;
use Illuminate\Console\Command;

class Test16Proxy extends Command
{
/**
* The name and signature of the console command.
*
* @var string
*/
protected $signature = 'test:16proxy';

/**
* The console command description.
*
* @var string
*/
protected $description = 'Command description';

/**
* Create a new command instance.
*
* @return void
*/
public function __construct()
{
parent::__construct();
}

/**
* Execute the console command.
*
* @return mixed
*/
public function handle()
{
$client = new \GuzzleHttp\Client();
// 要访问的目标页面
$targetUrl = "https://www.baidu.com";

// 爬虫ip服务器
define("PROXY_SERVER", "jshk.com.cn:31111");

// 爬虫ip身份信息
define("PROXY_USER", "username");
define("PROXY_PASS", "password");

$proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);

$options = [
"proxy" => PROXY_SERVER,
"headers" => [
"Proxy-Authorization" => "Basic " . $proxyAuth
]
];
//print_r($options);
$result = $client->request('GET', $targetUrl, $options);
var_dump($result->getBody()->getContents());
}
}
?>

标签:花钱,ip,转发,爬虫,command,PROXY,IP
From: https://blog.51cto.com/u_13488918/5946919

相关文章

  • linux下tar.gz、tar、bz2、zip等解压缩、压缩命令小结
    本文介绍了linux下的压缩程式tar、gzip、gunzip、bzip2、bunzip2、compress、uncompress、zip、unzip、rar、unrar等程式,以及如何使用它们对.tar、.gz、.tar.gz、.tgz、......
  • 怎么设置IP不会冲突,本地电脑为服务器时IP冲突解决方案!
    介绍IP冲突​​IP​​​地址在一个网络当中必须是唯一的,也就是说,IP地址具有唯一性。比如在一个局域网中,192.168.1.3这个IP只有被用在一台计算机上,如果存在两台计算机或者......
  • pip 设置代理
    pip设置代理设置国内镜像源在用户目录(C:\Users${用户名}\pip)下创建pip.ini文件,文件内容如下:如果没有pip文件夹就新建[global]index-url=https://pypi.tuna.tsin......
  • JavaScript DOM的性能优化详解
    本身JS操作DOM就比较消耗性能,你可以理解为JS和dom是独立的小岛,用桥实现两者的联系,但桥很窄,要过路费,所以我们要尽最大可能减少过桥的次数。 再加上每次操作DOM都会触发......
  • Jenkins实践指南-06-Jenkins pipeline 语法02
    3.2.6parameters  [作者:Surpassme]parameters又称参数化,通过参数化可以决定pipeline运行期的行为。pipeline主要支持两种形式的参数化parameters命令参数化和插件参......
  • 【从零开始学爬虫】采集收视率排行数据
    l采集网站​【场景描述】采集收视率排行数据。【源网站介绍】收视率排行网提供收视率排行,收视率查询,电视剧收视率,综艺节目收视率和电视台收视率信息。【使用工具】......
  • Java广度优先爬虫示例
    这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发工具(IDE......
  • IDEA入门级使用教程----你怎么还在用eclipse?
    上个月,idea的使用量超越eclipse的消息席卷了整个IT界,idea到底好在哪里呢?最智能的IDEIDEA相对于eclipse来说最大的优点就是它比eclipse聪明。聪明到什么程度呢?我们先来看几个......
  • NOIP2022 题解
    终于有机会补NOIP的题了T1考虑枚举C与F的纵列考虑预处理出每个点最左边和最下边可以延伸到哪之后枚举列,然后对行做类似于扫描线的操作,统计有多少可行的"第一横行"......
  • NOIP2022 总结
    赛时考场T1秒,写调1h(中间拉肚子了。。)先看题。写了234暴力,走人看T2。感觉不是很会。急急急。、大概快2h30min?的时候想到了个做法,写写写。写出来一遍过样例。看看文件......