解决“网页源代码编码形式为utf-8，但爬虫代码设置为decode('utf-8')仍出现汉字乱码”的问题

时间：2024-07-10 17:45:51浏览次数：18

标签：content utf urllib 乱码源代码 response decode

为了用爬虫获取百度首页的源代码，检查了百度的源代码，显示编码格式为utf-8

但这样写代码，却失败了…..

(这里提示：不要直接复制百度的URL，应该是http，不是https！！！)

# 获取百度首页的源码
import urllib.request

#(1)定义一个URL
url='http://www.baidu.com'

#(2)模拟浏览器向服务器发送请求 要在联网的前提下！
response=urllib.request.urlopen(url)

# (3)获取响应中的页面的源码
# 将二进制转化为字符串，也就是解码 decode('对应页面编码的格式')
content=response.read().decode('utf-8')

# (4)打印数据
print(content)

经过查阅资料，发现这样就可以了！成功的代码如下

import urllib.request
import chardet

# 定义一个URL
url = 'http://www.baidu.com'

# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)

# 获取响应中的页面的源码
content = response.read()

# 检测编码
encoding = chardet.detect(content)['encoding']

# 将二进制转化为字符串，也就是解码
content = content.decode(encoding)

# 打印数据
print(content)

标签：content,utf,urllib,乱码,源代码,response,decode
From： https://www.cnblogs.com/lxxa/p/18294642

Java面向对象小游戏--文字版格斗游戏(附带全套源代码)-＞基于JavaBean
一、前言java部分的基础学习已经完结，接下来给大家分享的大多为java相关的案例分析，也会有一些小项目，这点不要太过于担心，主要还是基础部分要打牢固。java部分的难点就在面向对象这一点，学习C语言的小伙伴们应该是第一次听说方法。这点也是和C语言相差巨大的地方，不过对于学习过pyt......
Java面向对象基础篇综合训练（附带全套源代码及逐语句分析）-＞基于javabeen
一、前言还是那句话面向对象是Java的重点，同时也是难点，小编会在此部分分享一些综合型的案例，难度从易到难，本篇文章只是一些基础的操作，综合能力并不是太高。大家可以试着观看一遍自己去打开编译器尝试一下。不知道有多少读者是跟着小编进行学习的，今天是学习Java的第五天，希望大家......
基于Java+Vue的资产设备管理软件：打造资产耗材全生命周期管理（项目源代码）
前言：资产设备管理系统旨在实现对企业资产和设备的全面管理，通过信息化手段提升管理效率，确保资产和设备的有效利用和安全性。以下是该系统的主要功能模块及其详细描述：一、个人中心用户登录与权限管理：实现用户身份验证和权限分配，确保系统数据的安全性。个人信息管理：允许用户......
基于Java+Vue的企事业移动培训考试系统：体系化培训管理，保障培训效果（项目源代码）
前言：企事业移动培训考试系统是一个集成多种功能的综合性平台，旨在为企业提供便捷、高效、灵活的在线培训和考试解决方案。以下是针对平台所列出的八个主要功能的详细解释：一、文档管理及在线预览允许企业上传、存储、管理和分享各种培训文档，如PPT、PDF、Word等。提供在线预......
vbc.exe 是 Microsoft Visual Basic 编译器的命令行工具。它用于编译 Visual Basic (.
vbc.exe是MicrosoftVisualBasic编译器的命令行工具。它用于编译VisualBasic(.NET)的源代码文件(.vb文件)到可执行文件或者库文件(例如.exe或.dll)。vbc.exe提供了一种方式来将VisualBasic源代码编译成在.NETFramework或.NETCore平台上可执行的程序。......
csc.exe 是 Microsoft Visual C# 编译器的命令行工具。它用于编译 C# 源代码文件 (.cs
csc.exe是MicrosoftVisualC#编译器的命令行工具。它用于编译C#源代码文件(.cs文件)到可执行文件或者库文件(例如.exe或.dll)。具体来说，csc.exe是用来将C#源代码编译成.NETFramework或.NETCore平台上的可执行文件或者库的工具。以下是一些常见用途和特点：......
Java读取properties文件之中文乱码问题及解决
Java读取properties文件之中文乱码问题及解决−目录Java读取properties文件中文乱码两种方式读取properties配置文件方式一：使用Properties集合工具类读取配置文件。方式二：使用ResourceBundle工具类读取配置文件Java读写资源文件类properties1.资源文件要求如下2.功能大致如下3.......
[IDEA]修改IDEA中properties文件的默认编码格式设置--编辑器--文件编码--UTF-8
[IDEA]修改IDEA中properties文件的默认编码格式设置--编辑器--文件编码--UTF-8问题描述IDEA中属性文件默认编码为ISO-8859-1会出现中文乱码的情况问题解决在设置-编辑器-文件编码中，将属性文件改为utf-8原文链接：https://www.cnblogs.com/xiao-xiaoyang/p/17606006.html......
java 读取properties java读取properties乱码，IDEA 更改显示格式
java读取propertiesjava读取properties乱码，IDEA更改显示格式1.打开properties文件，中文呈现乱码：原因：文件格式问题，properties默认使用ISO8859-1格式，中文显示，通用的是utf-8,带中文的可改成gbk,gb2312.这里改成 utf-8即可。步骤：选中文件，右键-->properties-->resou......
Java毕设项目汇总 - 1 - springboot框架+vue+源代码+论文等完整资料
逃逸的卡路里博主介绍：✌️码农一枚|毕设布道师，专注于大学生项目实战开发、讲解和毕业......

解决“网页源代码编码形式为utf-8，但爬虫代码设置为decode('utf-8')仍出现汉字乱码”的问题

相关文章

赞助商

阅读排行