爬取网页信息遇到的小问题

时间：2023-02-25 12:45:30浏览次数：38

标签：网页 cn 遇到 encoding 爬取 headers import response

在网页头部信息看到： Accept-Encoding:gzip, deflate 图片：

而爬到的汉字的部分是乱码：

查看获取响应的数据类型：

import re
import requests
from bs4 import BeautifulSoup

headers = {
    'Upgrade-Insecure-Requests': '1',
    'DNT': '1',
    'User-Agent': '',# 输入个人的user_agent
    'Referer': 'http://jnga.jinan.gov.cn/col/col22173/index.html',
}
url = "http://jnga.jinan.gov.cn/col/col22173/index.html"
response = requests.get(url,headers=headers)
print(response.encoding)

#ISO-8859-1

我个人的解决方法：

请求网页获取响应后，将响应的编码类型改为utf-8或者gdk

response.encoding='gdk' #或者'utf-8'

标签：网页,cn,遇到,encoding,爬取,headers,import,response
From： https://www.cnblogs.com/wwei12/p/17154139.html

Android虚拟机遇到错误无法打开的解决方法
错误提示：因为博主已经解决此问题，所以这个图片为其他网站搬运的图片，显示安卓虚拟机无法正常打开踩坑一开始博主以为是IDE的问题，结果重装也没有用。错误原因1.安卓镜像......
爬取网页图片
网络图片链接的格式：http://www.example.com/picture.jpghttp://img0.dili360.com/ga/M00/34/5E/wKgBzFS8cISAYYg5AB5r1Gar-oQ103.tub.jpg1importrequests2import......
python网页中下拉框的操作
1、只要是第一次打开页面可以加载的元素，就可以通过元素定位来定位和操作。2、如果需要先点击下拉框对象再加载选项，必须先点击脚本，等待选项元素加载。实例1.实例化select对象......
kettle9.3使用笔记03 网页端使用
1：浏览器打开网址http://xx.xx.xx.xx:8080/pentaho/Login，输入用户密码如密码忘记可登录服务器重置密码后重启pentaho服务hostname[/home/soft/pentaho-server9.3......
遇到的问题
相关转载自静态方法访问非静态方法引发的错误：不能对类型XXX中的非静态方法xxx（）进行静态引用_LiuYP_1024的博客-CSDN博客_不能对非静态方法进行静态引用......
PX4安装和编译遇到一些坑
最近由于实验需要，又得安装px4和gazebo，特此记录一些遇到的bug和解决方法，希望能帮助其他uu。1下载一般的安装步骤如下（不建议完全按下面命令执行）：点击查看代码gitcloneh......
记录将Base64字符串转化为图片遇到的问题
今天通过与别人写的api交互，获取到了一个原为图片的base64字符串，在网上找到了相互转换的方法，但是在转化时，报出了“输入不是有效的Base64字符串，因为它包含非base64......
遇到bug怎么分析,这篇文章值得一看
博主总结的非常到位：https://mp.weixin.qq.com/s/UpaLWjix2tnfTqybx9dmoQ 为什么定位问题如此重要？可以明确一个问题是不是真的“bug”很多时候，我们找到了问题的原因，......
肖sir__网页线下面试
第一题：设计一下两个两位数相加的测试用例，说只能写数字不要写文字第二题淘宝订单怎么测试功能测试：1.测试订单输入的类型2.测试金额数量：可创建等价类划分3.测试......

爬取网页信息遇到的小问题

相关文章

赞助商

阅读排行