给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助。
方案一
将requests.get().text改为requests.get().content
我们可以看到通过text()方法获取到的源码,之后进行打印输出的话,确实是会存在乱码的。此时可以考虑将请求变为.content,得到的内容就是正常的了。
方案二
手动指定网页编码
response.encoding = response.apparent_encoding
方案三
使用通用的编码方法
img_name.encode('iso-8859-1').decode('gbk')
使用通用的编码方法,对中文出现乱码的地方进行编码设定即可。还是当前的这个例子,针对img_name进行编码设定,指定编码并进行解码.
本文针对Python网络爬虫过程中的中文乱码问题,给出了3种乱码解决方法,顺利解决了问题。虽然文中例举了3种方法,但是快快相信肯定还有其他的方法的,也欢迎大家在评论区谏言。
标签:编码,方案,Python,get,爬虫,乱码 From: https://www.cnblogs.com/chengshu1258/p/17039130.html