我们知道,网络爬虫是指使用代码模拟真实用户发送网络请求,并获取数据的一个程序或者脚本。但如果不使用爬虫HTTP代理,很快就会被目标网站限制访问,那么,爬虫代理的工作原理是什么,如何让爬虫持续工作呢?
网络爬虫部署在某个客户端上,当爬虫程序运行时,获取某个HTTP代理,客户端先连接代理服务器,然后爬虫将请求发送给代理服务器;代理服务器接收请求后,连接要请求的目标网站服务器,然后将请求转发给网站服务器;网站服务器收到请求后作出响应,并将响应信息返回给代理服务器;代理服务器收到返回信息后转发给客户端,爬虫程序处理信息。至此,一个完整的请求完成了。
从爬虫HTTP代理的工作流程可以看出,与目标网站服务器打交道的一直是代理服务器,如果爬虫在工作过程中由于某些原因触发了目标网站的反爬策略,那么受到访问限制的将是代理服务器,爬虫程序只需要切换一个新的HTTP代理,就可以继续工作,客户端IP不会受到影响,爬虫工作也不会受到太大地影响,只要优质的HTTP代理ip足够多,就可以长期持续稳定地进行工作。
标签:HTTP,请求,爬虫,代理服务器,工作,原理,客户端 From: https://www.cnblogs.com/huakexiaopeng/p/16824111.html