python爬虫之创建属于自己的ip代理池

时间：2024-01-08 14:05:37浏览次数：44

标签：http python ip 爬虫 proxy https com 端口号

在后续需求数据量比较大的情况下，自建一个ip代理池可以帮助我们获得更多的数据。

下面我来介绍一下整个过程

1.找到目标代理网站

https://www.dailiservers.com/go/webshare
https://proxyscrape.com/
https://spys.one/
https://free-proxy-list.net/
http://free-proxy.cz/en/
https://www.proxynova.com/proxy-server-list/
https://github.com/clarketm/proxy-list
https://github.com/opsxcq/proxy-list

2.解析网站获得免费的代理ip列表

使用解析网站或者是发送网络请求都可以

3.使用request中的参数proxies

如果代理不需要密码和用户名

prox = {
    "http":"http://ip地址:端口号",
    "https":"http://ip地址:端口号"
}

如果代理需要密码和用户名

prox = {
    "http":"http://用户名:用户密码@ip地址:端口号",
    "https":"http://用户名:用户密码@ip地址:端口号"
}

注意如果当你的格式填写不正确的时候，也是会出现请求成功的，但是使用的是自己本机的ip,所以请注意使用时的格式填写

prox的使用

直接在requests中填写参数请求，proxies = prox

4.进行代理验证

大部分免费的代理都是不可以使用的，这里可以使用telnetlib进行验证

使用方法

try:
     telnetlib.Telnet(ip, port=端口号, timeout=3)
except:
     print('ip无效！')
else:
    print("有效)

建议将可以使用的ip储存到文件中，以便后续的使用，可以减少筛选的事件。

标签：http,python,ip,爬虫,proxy,https,com,端口号
From： https://blog.51cto.com/u_16426526/9143912

JavaScript WebAPI（三）（详解）
这次介绍一下webAPI中的一些知识：回调函数回调函数是指如果将函数A做为参数传递给函数B时，我们称函数A为回调函数例如：//立即执行函数中传递的函数是一个回调函数(function(){console.log("我是回调函数")})();//监听事件中传递的参数是一个回调函数constdiv=document......
JavaScript WebApi(二) 详解
监听事件介绍事件监听是一种用于在特定条件下执行代码的编程技术。在Web开发中，事件监听器可以用于捕获和响应用户与页面交互的各种操作，如点击、滚动、输入等。事件监听的基本原理是，通过在特定元素上注册事件监听器，当事件在该元素上触发时，相应的处理函数会被执行。以下是事件监听的......
python爬虫进阶篇（异步）
学习完前面的基础知识后，我们会发现这些爬虫的效率实在是太低了。那么我们需要学习一些新的爬虫方式来进行信息的获取。异步使用python3.7后的版本中的异步进行爬取，多线程虽然快，但是异步才是爬虫真爱。基本概念讲解1.什么是异步？异步是指在程序执行......
JavaScript WebApi 一（详讲）
基础知识在前面的部分已经讲过了，大家如果没有学习过JavaScript的可以去看一下1.DOM引入在JavaScript中，DOM（文档对象模型）提供了一种表示和操作HTML文档的方式。在DOM中，文档被表示为一个由节点组成的树形结构。DOM对象则是这些节点的抽象表示，它们可以通过JavaScript来访问和操作。DOM......
linux 中 bzip2压缩与解压缩
001、测试文件[root@pc1test]#lsa.txt[root@pc1test]#ll-h##测试文件total113M-rw-r--r--.1rootroot113MJan912:03a.txt 002、压缩文件（不保留源文件）[root@pc1test]#lsa.txt[root@pc1test]#bzip2a.txt......
C# 调用 Python (.exe) 程序
C#调用Python有常见的四种方法，之所以选择这种，是因为相对简单，并且出错率低、适用范围广熟悉Python开发的人都知道，在写Python程序时免不了有使用第三方库，这里也是调用python程序最容易出错的地方当然.exe的方式也造成了最大的性能损失下面以终端程序为例核心代码usi......
使用Jsoup的Java网络爬虫示例：抓取在线考试平台试题数据
网络爬虫是一种强大的工具，用于从互联网上收集信息。而在Java中，Jsoup是一款常用的HTML解析库，提供了便捷的API来解析、提取和操作HTML数据。在本文中，我们将深入探讨如何利用Jsoup库构建一个Java网络爬虫，并使用代理服务器来抓取在线考试平台的试题数据。介绍Jsoup和网络爬虫首先，我们将......
C语言爬虫程序采集58商铺出租转让信息
为了找到一个好店铺好位置，往往要花费很大精力和财力过去寻找，就有有某些出租平台但是一个个查找下来也是十分麻烦，所以我利用我们的C语言基础，给大家写个商品转租的爬虫程序，让找店铺不在那么费时费力，至少获取信息比自己单个来的更容易。importrequestsfrombs4importBeautifulSoup......
Lua网络爬虫实战：使用http服务器获取虾皮商品信息的全过程
这段Lua代码是一个简单的爬虫示例，使用了Lua中的http模块进行网络请求，并设置了代理信息。以下是对代码的一些解释和注意事项：安装http模块：luarocksinstallhttp这个命令用于安装Lua的http模块，以便在程序中使用HTTP请求功能。代理设置：localproxy_host="www.duoip.cn......
基于Go语言的简单网络爬虫示例：获取智联招聘网页内容
发起HTTP请求：使用Go的net/http包发起HTTP请求以获取网页内容。解析HTML内容：使用HTML解析器（如Go的golang.org/x/net/html包）来解析网页内容，找到你感兴趣的信息。提取目标数据：通过使用正则表达式或者更好的选择是HTML解析库来提取所需信息。存储或处理信息：将提取的信息存储到文件、数......