首页 > 其他分享 >爬虫笔记【1】如何爬取无HTTPS证书的网站?

爬虫笔记【1】如何爬取无HTTPS证书的网站?

时间:2023-01-03 19:35:19浏览次数:45  
标签:网页 证书 过期 爬虫 爬取 HTTPS 警告

  在爬虫过程中遇到很多网页都多多少少会存在证书过期的情况,那么证书过期后,该网站会被认定为不安全网站,那么怎么进行正常的数据爬取呢?

  主要从爬虫过程中常遇到的三个问题进行解决。

1、打开网页,检测出该网页连接不安全,但是想要直接访问怎么办?

  • 原因:证书过期,或其他问题。
  • 如图:

解决方案:在网页内直接键盘输入thisisunsafe,再按下回车键即可。

2、怎么在爬虫代码中解决证书验证的问题?

解决方案:

  在requests中指定verify=False,这样进行爬取网页信息时,就不会进行证书验证了。

示例:

resp = requests.get(url,headers=self.headers,verify=False)

 3、在爬取数据时,可以正常爬取,但是会有不影响爬取数据的警告,怎么去掉这些警告呢?

解决方案:

  在代码开头输入以下两行代码即可(使警告作废)。

import urllib3
urllib3.disable_warnings()

   这样就不会提示警告消息了。

标签:网页,证书,过期,爬虫,爬取,HTTPS,警告
From: https://www.cnblogs.com/LoLong/p/17023177.html

相关文章

  • git clone with multiple account(https)
    ifusemultipleaccountwhenrungitclone(httpsprotocol),wecanusebelowwaytousediffaccount,Gotowebportal,andgetthegitclonelinkunderhttps......
  • 我的python爬虫学习之旅(1)
    在今年9月份的时候,我开始学习爬虫,在此之前我从来没有整理过自己python的基础知识,对文件的操作算不上娴熟,在大佬的指点下我开始对以往的基础知识进行整理,刚开始我觉的比较麻......
  • FetchError: request to https://registry.npmjs.org/swiper failed, reason: connect
    安装swiper插件时,报错,经过下边方法解决后,重新安装swiper,成功! FetchError:requesttohttps://registry.npmjs.org/swiperfailed,reason:connectECONNREFUSED127.0......
  • Java爬取中国天气网实况天气数据
    因实验室需求,需要找一个实况天气API。百度云、阿里云、腾讯云上边我都去找了,很多平台要么没有,要么要收费(免费的可调用次数太少了)。而我在高德开放平台上找到了一个,但是不......
  • 加解密与HTTPS(4)
    您好,我是湘王,这是我的博客园,欢迎您来,欢迎您再来~   在互联网应用中,安全性问题已经越来越突出。从DDoS攻击、矿机劫持、乌云事件(白帽子变成黑帽子),到窃听、偷拍、强制......
  • Python代码简单几步完成爬虫
    进入互联网时代,网络上充斥着各种各样的信息,鱼龙混杂,要是人工分辨工作效率又非常低,那么如何才能实现快速检索我们需要的信息呢?例如如何通过爬虫实现美图批量下载,如何通过多......
  • 2023.01.03 - vue项目开启https调试
    vue-cli3.x项目:使用vue脚手架3.x搭建的项目,配置开启https方法比较简单,在项目根目录下的vue.config.js文件中增加属性https:true即可。//vue.config.jsmodule.expor......
  • https的网站是不是必须让用户装数字证书
    https的网站是不是必须让用户装数字证书?1.如果用户不装,是否就不能够访问,或者说无法完成,比如交易这种操作。 2.浏览器识别到https网站的时候,是浏览器负责建立加密通道......
  • 【Python】爬虫笔记-多线程&线程池
    1.基本概念1.1并发和并行并发和并行的概念并不是对立的,并发(concurrent)对应的是顺序(sequential),并行(parallel)对应的是串行(serial)。顺序:上一个开始执行的任务完成后,当前......
  • 用python爬取网络文章----滴天髓
    用python爬取网络文章真的很简单。主要分以下几个步骤1、安装并导入相关模块.这里我们要用到两个模块,分别是reqesets和lxml安装命令pipinstallrequests和pipinstall......