首页 > 编程语言 >Python3网络爬虫教程5——ProxyHandler处理(代理服务器和代理IP)

Python3网络爬虫教程5——ProxyHandler处理(代理服务器和代理IP)

时间:2023-01-31 13:34:14浏览次数:50  
标签:ProxyHandler IP request 代理 代理服务器 爬虫


上接:
Python3网络爬虫教程4——UserAgent的使用(用户伪装)(附常用的UserAgent值清单
[

3. ProxyHandler处理(代理服务器)

  • 使用代理IP,是爬虫的常用手段
  • 服务器有反爬虫手段,使用代理就是反反爬虫
  • 获取代理服务器的地址:
  • www.xicidaili.com
  • www.goubanjia.com
  • 代理用了隐藏真实的访问,代理也不允许频繁的访问某一个固定的网址,
  • 所以代理IP一定要很多很多,然后更换不同的IP访问
  • 基本使用步骤:
  • 设置代理地址
  • 创建ProxyHandler
  • 创建Opener
  • 安装Opener
  • 看案例43_10
    43_10
# 使用代理IP访问一个网站
# 选取一个不上的网站,防止IP被封,以后访问不了
# 网址:http://www.cnqiang.com/
# 免费代理IP网站:http://www.goubanjia.com/


from urllib import request, error

if __name__ == '__main__':

url = 'http://www.cnqiang.com/'

# 使用代理的步骤
# 1.设置代理IP,进入代理网站选择一个IP:PORT
proxy = {'http': '47.97.190.145:9999'}
# 2.创建ProxyHandler
proxy_handler = request.ProxyHandler(proxy)
# 3.创建Opener
opener = request.build_opener(proxy_handler)
# 4.安装Opener
request.install_opener(opener)

# 现在如果访问url,就会使用代理服务器
try:
rsp = request.urlopen(url)
html = rsp.read().decode()
print(html)
except error.URLError as e:
print(e)
except error.HTTPError as e:
print(e)
except Exception as e:
print(e)

下接:
Python3网络爬虫教程6——cookie & session(cookie的属性,保存及模块的使用)


标签:ProxyHandler,IP,request,代理,代理服务器,爬虫
From: https://blog.51cto.com/u_14990501/6028996

相关文章