每当我们使用HTTP代理请求网站失败时,总会认为是HTTP代理出现故障,但检查之后又发现,代理完全正常。这种情况就有可能是我们所访问网站的防护策略被触发了,导致爬虫程序无法访问。那么,平时HTTP代理使用过程中会遇到哪些常见网站防护策略呢?
不同的网站有着不同的防护策略,以下几点算是比较常见的。
1、cookies认证策略
很多网站在访问的时候,都需要进行cookie认证,一旦访问之后,没能及时提供认证cookie,就会被网站拒绝访问,或者定向跳转到其他页面。所以,当遇到这种情况的时候,可以试着带上cookies认证访问。
2、访问频率策略
网站服务器的资源是有限的,不仅仅是流量带宽,每天所能承受的PV也是有限的,因此为了防止一些恶意访问行为的发生,很多网站都会对访问频率进行限制,如果你设计的爬虫程序在访问页面的频率上有任何与真人相违背的情况出现,就会立即触发访问频率策略。
3、user-agent
user-agent是用户代理,是指用户使用什么工具访问网站的,如果是浏览器访问,会有浏览器访问的标识,如果是python访问,会有python访问的标识。如果是程序代码请求,我们就要带上浏览器的user-agent,因为人类浏览网页都是用浏览器来访问网页的。
4、其他
还有一些其他防护策略,例如图片加防盗链,也就是发送请求需要带referer才能成功,诸如此类的策略有很多,都需要我们去学习去研究。
HTTP代理使用过程中会遇到的常见网站防护策略就这些了,作为程序员,在工作中遇到各种问题都要热情对待,冷静处置,更多的还是需要经常学习,提升自我。
标签:HTTP,策略,哪些,网站,代理,防护,访问 From: https://www.cnblogs.com/huakexiaopeng/p/16831730.html