python-爬虫-requests.get()-响应内容中文乱码

时间：2022-10-28 14:34:25浏览次数：41

标签：sys utf encoding python resp get 乱码 print

python-爬虫-requests.get()-响应内容中文乱码

由于目标url的headers没有提供charset，那么这串字节流就会用latin-1 转换为 unicode 编码的方式转换成了我们见到的unicode对象。
但是网页的编码方式实际上是utf-8，所以我们实际上需要的是从utf-8转换成unicode编码。此时这一串字节流就会被错误地解释成unicode编码。
我们如何发现这种情况呢？
其实很简单，我们只要知道reponse的encoding方式是否错误就可以了，查看response对象的编码
resp = requests.get(’http://baidu.com‘) #请求
print '响应:\nencoding={}'.format(resp.encoding) #如果中文乱码，如果requests没有发现http headers中的charset

如何转为 utf-8 输出？
我们可以在调用 txt = resp.text 之前设置 resp 对象的编码。resp.encoding='utf-8'

完整实例

# -*- coding: utf-8 -*-
import sys
import lxml
import requests
import codecs
import time
from lxml import etree,html
import tomd




reload(sys)
sys.setdefaultencoding('utf8')  # 设置默认编码格式为'utf-8'


if sys.stdout.encoding != 'UTF-8':
    sys.stdout = codecs.getwriter('utf-8')(sys.stdout, 'strict')
if sys.stderr.encoding != 'UTF-8':
    sys.stderr = codecs.getwriter('utf-8')(sys.stderr, 'strict')




def http_get(url):
    print '请求地址：{}'.format(url)
    '''
    '''
    headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel …) Gecko/20100101 Firefox/58.0'}
    resp = requests.get(url,headers=headers) #请求
    print '请求完成'
    if not resp:
        print '无响应内容'
        return
    print '响应:\nencoding={}'.format(resp.encoding)  #如果中文乱码，如果requests没有发现http headers中的charset
    resp.encoding='gb2312' #设置响应编码（gbk、utf-8、gb2312）
    txt = resp.text #获取响应的html内容
    print '原始：\n{}'.format(txt)
    print '响应:\nencoding={}'.format(resp.encoding)


http_get('http://baidu.com')

标签：sys,utf,encoding,python,resp,get,乱码,print
From： https://blog.51cto.com/u_4518216/5804857

Python办公自动化_Excel篇
Python办公自动化_Excel篇库名作用xlrd从excel中读取数据，支持xls,xlsxxlwt从excel进行修改操作，不支持对xlsx格式的修改xlutils在xlrd和xlwt中，对一个已......
python 爬虫 Bs4解析 ----HTML语法
Bs4bs4全称：beautifulsoup4，意思为美丽的汤版本4可以在HTML或XML文件中提取数据的网页信息提取库与re和xpath模块的区别：re模块：使用起来过于麻烦且阅读性不好xpath模......
Python 嵌入式打包（图文）
Python嵌入式打包过程目录Python嵌入式打包过程下载嵌入式包解压和配置安装pip和其他依赖启动项目python嵌入式打包：将python环境与项目代码打包到同一个文件夹中，在其他......
JavaWeb-01--JavaWeb的概念--Servlet 技术-- ServletConfig类--ServletContext 类- HT
文章目录1.JavaWeb的概念**Web****资源的分类**常用的Web服务器Tomcat目录介绍Servlet技术什么是servlet手动实现S......
数据结构与算法（Python）[一看就会] 01-1 线性表-顺序表定义
线性表的顺序表示线性表的顺序表示又称为顺序存储结构或顺序映像。顺序存储定义：把逻辑上相邻的数据元素存储在物理上相邻的存储单元中的存储结构。特点：逻辑上相邻的元素，物......
数据结构与算法（Python）[超详细版本] 02-2 栈-栈的操作（或实现）
##栈结构实现栈可以用顺序表实现，也可以用链表实现。栈的操作ListitemStack()创建一个新的空栈push(item)添加一个新的元素item到栈顶pop()弹出栈顶元素peek()返回栈顶......
全球名校AI课程库（23）| Harvard哈佛 · 基于Python/JavaScript的Web编程课程『Web Progr
......
拉取镜像报Error response from daemon: Get https://: http: server gave HTTP respo
现象：拉取镜像报Errorresponsefromdaemon:Gethttps://:http:servergaveHTTPresponsetoHTTPSclientharbor默认是https协议的，如果想要通过http协议拉取harbor的......
Python报错 “ TypeError :'NoneType object is not iterable”
TypeError:'NoneTypeobjectisnotiterable：错误的意思是：没有类型可迭代。1.当if条件没有考虑到else的情况的时候，函数默认返回None需要加一个return‘ ’。 i......
python的装饰器
转载：https://www.cnblogs.com/tobyqin/p/python-decorator.html这篇文章写的特别棒，我就不复制粘贴了，深入浅出，符合不同阶段的阅读需求。当前的简单理解：装饰器，就是在已有的......

python-爬虫-requests.get()-响应内容中文乱码

相关文章

赞助商

阅读排行