Python3网络爬虫教程5——ProxyHandler处理（代理服务器和代理IP）

时间：2023-01-31 13:34:14浏览次数：50

标签：ProxyHandler IP request 代理代理服务器爬虫

上接：
Python3网络爬虫教程4——UserAgent的使用(用户伪装)(附常用的UserAgent值清单
[

3. ProxyHandler处理（代理服务器）

使用代理IP，是爬虫的常用手段
服务器有反爬虫手段，使用代理就是反反爬虫
获取代理服务器的地址：

www.xicidaili.com
www.goubanjia.com

代理用了隐藏真实的访问，代理也不允许频繁的访问某一个固定的网址，
所以代理IP一定要很多很多,然后更换不同的IP访问
基本使用步骤：

设置代理地址
创建ProxyHandler
创建Opener
安装Opener
看案例43_10
43_10

# 使用代理IP访问一个网站
# 选取一个不上的网站，防止IP被封，以后访问不了
# 网址：http://www.cnqiang.com/
# 免费代理IP网站：http://www.goubanjia.com/


from urllib import request, error

if __name__ == '__main__':

    url = 'http://www.cnqiang.com/'

    # 使用代理的步骤
    # 1.设置代理IP,进入代理网站选择一个IP:PORT
    proxy = {'http': '47.97.190.145:9999'}
    # 2.创建ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3.创建Opener
    opener = request.build_opener(proxy_handler)
    # 4.安装Opener
    request.install_opener(opener)

    # 现在如果访问url,就会使用代理服务器
    try:
        rsp = request.urlopen(url)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)
    except error.HTTPError as e:
        print(e)
    except Exception as e:
        print(e)

下接：
Python3网络爬虫教程6——cookie & session（cookie的属性，保存及模块的使用）

标签：ProxyHandler,IP,request,代理,代理服务器,爬虫
From： https://blog.51cto.com/u_14990501/6028996

在elasticsearch中简单的使用script_fields
目录1、背景2、准备数据2.1mapping2.2插入数据3、案例3.1格式化性别1-男2-女-1-未知如果不存在sex字段，则显示--其余的显示**3.1.1dsl3.1.2java代码3.1.3运行结......
JavaScript学习笔记—DOM：属性节点
属性也是一个节点对象（Attr），和文本一样，通常我们不会去直接获取节点对象，而是通过元素来完成对属性的操作：方式一：读取：元素.属性名（注意，class属性需要使用className来读取）读......
微信小程序跳转到另一个小程序 wx.navigateToMiniProgram 方法，调试
wx.navigateToMiniProgram(Objectobject)需要页面权限：小程序不能在插件页面中调用该接口，插件也不能在小程序页面中调用该接口打开另一个小程序wx.navigateToMiniPro......
关于IDEA运行时报内存溢出FATAL ERROR: CALL_AND_RETRY_LAST Allocation failed - Jav
IDEA运行时，经常会碰到内存溢出问题：FATALERROR:CALL_AND_RETRY_LASTAllocationfailed-JavaScriptheapoutofmemory，非常讨厌，浪费时间，现记录解决方案如下：1、全......
Linux设置防火墙，只允许特定IP访问指定端口
一、概述1、目的服务器A使用端口1521，只有允许指定IP应用才可以访问，其它未经允许服务器ip地址无法正常访问。2、方法步骤启用防火墙。检查端口与关闭端口访问。......
eclipse上找不到相关插件
Eclipse的设计思想为一切皆插件，其核心很小，其它所有功能都以插件(plugin)的形式附加于Eclipse核心之上。一个标准的Eclipse，给它添加一些JEE开发需要的plugins，它摇身一变......
全网影视免费看，最新电影、电视剧免广告免VIP观看，只要你能搜到的，统统都能看，《狂飙》、
最近我在看的，而且感觉很火的两个电视剧《狂飙》和《三体》正在持续更新中，怎么能最快追到最新剧集呢？如果特别喜欢，想支持一下当然可以开影视会员啦，如果想白嫖一下也不是没有......
【KAWAKO】iphone13pro开箱流程
目录全程录像检查包装盒检查包装盒内物品检查各种码拆封激活激活之后检查屏幕检查其它功能贴膜（选）References全程录像如果你觉得你所购买的平台（比如某ABB格式名字的平台）......
javascript：js 读写 style属性（DOM模型）
javascript：js读写style属性（DOM模型）一、说明： 1、js读取style属性，需要去掉css格式中的“-”，“-”后面的第一个字母大写。js中的减号（“-”），与css中属性......
算法刷题 Day 28 | ● 93.复原IP地址 ● 78.子集 ● 90.子集II
详细布置93.复原IP地址本期本来是很有难度的，不过大家做完分割回文串之后，本题就容易很多了题目链接/文章讲解：https://programmercarl.com/0093.%E5%A4%8D%E5%8......

Python3网络爬虫教程5——ProxyHandler处理（代理服务器和代理IP）

3. ProxyHandler处理（代理服务器）

相关文章

赞助商

阅读排行