程序员在日常工作中,爬虫程序为了提高工作效率,经常需要使用HTTP代理。但有时候,爬虫在使用HTTP代理后工作效率不仅没有提升,反而大不如前,这是为什么呢?
1、HTTP代理质量差
HTTP质量不好,一般体现为速度不快,稳定性不好,重复率太高等等,这些都会让爬虫提不起劲儿。比如免费HTTP代理,让爬虫工作寸步难行,普通/开放HTTP代理让爬虫工作效率很低。只有采购高质量HTTP代理,才能让爬虫工作效率更高。
2、爬虫效率不高
除了HTTP代理质量,爬虫程序本身的效率也很关键,程序代码是否合理清晰,代码优化是否到位等都会影响爬虫工作效率。爬虫的请求行为同样会影响爬虫工作效率,比如使用HTTP代理的并发请求是否过大,一般来说,并发请求越大速度越慢,毕竟代理服务器资源是有限的;请求目标网站的频率是否过快,太快容易被识别,从而被限制访问。
3、网站反爬策略太严
不同的网站有不同的反爬策略,有的网站的反爬策略很宽松,可以让爬虫工作更加顺滑,持久高效;有的网站的反爬策略很严格,比如一个IP只能请求一次,让爬虫如陷泥沼,如履薄冰,这样会严重的影响工作效率。
影响爬虫工作效率的因素有很多,除了HTTP代理质量不高外,还有可能爬虫策略以及目标网站的反爬虫策略等因素,在我们遇到问题时,需要从各个方面去考虑,找出真正的问题,从而解决问题,提高工作效率。
标签:HTTP,请求,网站,爬虫,代理,工作效率 From: https://www.cnblogs.com/huakexiaopeng/p/16820711.html