首页 > 其他分享 >Day 14 14.2 代理IP

Day 14 14.2 代理IP

时间:2023-03-08 15:01:38浏览次数:61  
标签:14.2 url ip 代理 page headers text IP Day

代理IP

代理IP:反反爬使用代理ip是非常必要的一种反反爬的方式,但是即使使用了代理ip,对方服务器任然会有很多的方式来检测我们是否是一个爬虫,比如:一段时间内,检测IP访问的频率,访问太多频繁会屏蔽;检查Cookie,User-Agent,Referer等header参数,若没有则屏蔽;服务方购买所有代理提供商,加入到反爬虫数据库里,若检测是代理则屏蔽等。所以更好的方式在使用代理ip的时候使用随机的方式进行选择使用,不要每次都用一个代理ip

什么是代理

  • 代理服务器

代理服务器的作用

  • 就是用来转发请求和响应

代理详解

在爬虫中为何需要使用代理?

  • 有些时候,需要对网站服务器发起高频的请求,网站的服务器会检测到这样的异常现象,则会讲请求对应机器的ip地址加入黑名单,则该ip再次发起的请求,网站服务器就不在受理,则我们就无法再次爬取该网站的数据。
  • 使用代理后,网站服务器接收到的请求,最终是由代理服务器发起,网站服务器通过请求获取的ip就是代理服务器的ip,并不是我们客户端本身的ip。

代理的匿名度

  • 透明:网站的服务器知道你使用了代理,也知道你的真实ip
  • 匿名:网站服务器知道你使用了代理,但是无法获知你真实的ip
  • 高匿:网站服务器不知道你使用了代理,也不知道你的真实ip(推荐)

代理的类型(重要)

  • http:该类型的代理服务器只可以转发http协议的请求
  • https:可以转发https协议的请求

如何获取代理?

如何使用代理?

  • 测试:访问如下网址,返回自己本机ip

    import requests
    from lxml import etree
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36',
    }
    url = 'https://www.sogou.com/web?query=ip'
    page_text = requests.get(url=url,headers=headers).text
    tree = etree.HTML(page_text)
    data = tree.xpath('//*[@id="ipsearchresult"]/strong/text()')[0]
    print(data)
    
  • 使用代理发起请求,查看是否可以返回代理服务器的ip

    import requests
    from lxml import etree
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.80 Safari/537.36',
    }
    url = 'https://www.sogou.com/web?query=ip'
    #使用代理服务器发起请求
    #proxies={'代理类型':'ip:port'}
    page_text = requests.get(url=url,headers=headers,proxies={'https':'ip:port'}).text
    tree = etree.HTML(page_text)
    data = tree.xpath('//*[@id="ipsearchresult"]/strong/text()')[0]
    print(data)
    
  • 深度测试:

    • 对快代理进行n次请求,直到本机无法访问快代理为止(证明本机ip被快代理封掉了)

    • 构建一个代理池(封装了很多代理ip和端口的容器),用于数据的批量爬取

      from bs4 import BeautifulSoup
      from lxml import etree
      import requests
      import time
      import random
      headers = {
          'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36'
      }
      #构建一个代理池
      proxy_url = 'http://webapi.http.zhimacangku.com/getip?num=15&type=2&pro=&city=0&yys=0&port=1&pack=213751&ts=0&ys=0&cs=0&lb=6&sb=-&pb=4&mr=1&regions='
      json_data = requests.get(url=proxy_url,headers=headers).json()
      json_list = json_data['data']
      proxy_list = [] #代理池,每次请求,可以随机从代理池中选择一个代理来用
      for dic in json_list:
          ip = dic['ip']
          port = dic['port']
          n_dic = {
              'https':ip+':'+str(port) # {'https':'111.1.1.1:1234'}
          }
          proxy_list.append(n_dic)
      
      #爬取多页
      #1.创建一个通用的url(可以变换成任意页码的url)
      url = 'https://www.kuaidaili.com/free/inha/%d/'
      #2.通过循环以此生成不同页码的url
      for page in range(1,4):
          print('----------正在爬取第%d页的数据!-----------'%page)
          #format用来格式化字符串的(不可以修改url这个字符串本身)
          new_url = format(url%page)
          #循环发送每一页的请求
          #注意:get方法是一个阻塞方法!
          page_text = requests.get(url=new_url,headers=headers,proxies=random.choice(proxy_list)).text
          time.sleep(1)
          soup = BeautifulSoup(page_text,'lxml')
          trs = soup.select('tbody > tr')
          for tr in trs:
              t1 = tr.findAll('td')[0]
              t2 = tr.findAll('td')[1]
              ip = t1.string
              port = t2.string
              print(ip,port)
      

标签:14.2,url,ip,代理,page,headers,text,IP,Day
From: https://www.cnblogs.com/dream-ze/p/17191994.html

相关文章