首页 > 其他分享 >爬取网页信息遇到的小问题

爬取网页信息遇到的小问题

时间:2023-02-25 12:45:30浏览次数:38  
标签:网页 cn 遇到 encoding 爬取 headers import response

在网页头部信息看到: Accept-Encoding:gzip, deflate 图片:

 

 

而爬到的汉字的部分是乱码:

 

查看获取响应的数据类型:

import re
import requests
from bs4 import BeautifulSoup

headers = {
    'Upgrade-Insecure-Requests': '1',
    'DNT': '1',
    'User-Agent': '',# 输入个人的user_agent
    'Referer': 'http://jnga.jinan.gov.cn/col/col22173/index.html',
}
url = "http://jnga.jinan.gov.cn/col/col22173/index.html"
response = requests.get(url,headers=headers)
print(response.encoding)

#ISO-8859-1

 

我个人的解决方法:

请求网页获取响应后,将响应的编码类型改为utf-8或者gdk

response.encoding='gdk' #或者'utf-8'

 

 

标签:网页,cn,遇到,encoding,爬取,headers,import,response
From: https://www.cnblogs.com/wwei12/p/17154139.html

相关文章

  • Android虚拟机遇到错误无法打开的解决方法
    错误提示:因为博主已经解决此问题,所以这个图片为其他网站搬运的图片,显示安卓虚拟机无法正常打开踩坑一开始博主以为是IDE的问题,结果重装也没有用。错误原因1.安卓镜像......
  • 爬取网页图片
    网络图片链接的格式:http://www.example.com/picture.jpghttp://img0.dili360.com/ga/M00/34/5E/wKgBzFS8cISAYYg5AB5r1Gar-oQ103.tub.jpg1importrequests2import......
  • python网页中下拉框的操作
    1、只要是第一次打开页面可以加载的元素,就可以通过元素定位来定位和操作。2、如果需要先点击下拉框对象再加载选项,必须先点击脚本,等待选项元素加载。实例1.实例化select对象......
  • kettle9.3使用笔记03 网页端使用
    1:浏览器打开网址http://xx.xx.xx.xx:8080/pentaho/Login,输入用户密码   如密码忘记可登录服务器重置密码后重启pentaho服务hostname[/home/soft/pentaho-server9.3......
  • 遇到的问题
    相关转载自静态方法访问非静态方法引发的错误:不能对类型XXX中的非静态方法xxx()进行静态引用_LiuYP_1024的博客-CSDN博客_不能对非静态方法进行静态引用......
  • PX4安装和编译遇到一些坑
    最近由于实验需要,又得安装px4和gazebo,特此记录一些遇到的bug和解决方法,希望能帮助其他uu。1下载一般的安装步骤如下(不建议完全按下面命令执行):点击查看代码gitcloneh......
  • 记录将Base64字符串转化为图片遇到的问题
    今天通过与别人写的api交互,获取到了一个原为图片的base64字符串,在网上找到了相互转换的方法,但是在转化时,报出了“输入不是有效的Base64字符串,因为它包含非base64......
  • 遇到bug怎么分析,这篇文章值得一看
    博主总结的非常到位:https://mp.weixin.qq.com/s/UpaLWjix2tnfTqybx9dmoQ 为什么定位问题如此重要?可以明确一个问题是不是真的“bug”很多时候,我们找到了问题的原因,......
  • 肖sir__网页线下面试
     第一题:设计一下两个两位数相加的测试用例,说只能写数字不要写文字 第二题淘宝订单怎么测试功能测试:1.测试订单输入的类型2.测试金额数量:可创建等价类划分3.测试......