首页 > 编程语言 >python爬虫爬取网页中文乱码问题的解决

python爬虫爬取网页中文乱码问题的解决

时间:2024-11-17 11:29:26浏览次数:1  
标签:__ 爬取 get python text 乱码 url requests headers

一: 遇到的问题
1.代码

点击查看代码

import requests
if name == 'main':
#指定URL
url = 'https://xxxxxx'
#发送请求1.
page_text = requests.get(url, headers=headers).text
#打印
print(page_text)

2.返回的网页内容

点击查看代码 #省略的代码 第ä¸å·宴æ¡å­è±ªæ°ä¸ç»ä¹æ©é»å·¾è±éé¦ç«å 第äºåÂ·å¼ ç¿¼å¾·æé­ç£é® ä½å½è è°è¯å®¦ç« 第ä¸å·议温æè£åå±ä¸å é¦éç æè说åå¸ç¬¬åå·åºæ±å¸éçè·µä½ è°è£è´¼å­å¾·ç®å第äºå·åç«è¯è¯¸éåºæ¹å¬ ´å³åµä¸è±æåå¸ #省略的代码

3.问题 标红部分应该是中文

二: 问题的解决
1.获取网页的方式requests.get().text改为reuqests.get().content

点击查看代码 import requests if __name__ == '__main__': #指定URL url = 'https://xxxxxx' #发送请求 page_text = requests.get(url, headers=headers).content #打印 print(page_text)

三:涉及到的知识

  1. requests.get().text 获取的是文本形式的响应内容
  2. requests.get().content 获取的是二进制形式的响应内容

标签:__,爬取,get,python,text,乱码,url,requests,headers
From: https://www.cnblogs.com/songjiazhen/p/18550380

相关文章

  • Excel 与 Python 的强强联合:开启数据分析与处理的新大门 
     在数据处理和分析的世界里,Excel一直是大家耳熟能详、应用广泛的工具,凭借其直观的界面和丰富的函数,能够轻松应对许多基础的数据操作。而Python呢,作为一门功能强大、灵活多变的编程语言,在数据科学领域更是有着无可替代的地位。当Excel遇上Python,它们就如同默契的搭档,能......
  • python基于深度学习的音乐推荐方法研究系统
    需求设计一款好的音乐推荐系统其目的是为用户进行合理的音乐推荐,普通的用户在登录到系统之后,能够通过搜索的方式获取与输入内容相关的音乐推荐,而以管理员登录到系统之后,则可以进行徐昂管的数据管理等内容操作。此次的需求主要有以下的一些方面:(1)用户的登录过程实现,要实现为......
  • 基于大数据python 王者荣耀战队数据分析系统(源码+LW+部署讲解+数据库+ppt)
    !!!!!!!!!选题不知道怎么选不清楚自己适合做哪块内容都可以免费来问我避免后期給自己答辩找麻烦增加难度(部分学校只有一次答辩机会没弄好就延迟毕业了)会持续一直更新下去有问必答一键收藏关注不迷路源码获取:https://pan.baidu.com/s/1aRpOv3f2sdtVYOogQjb8jg?pwd=jf1d提取码:......
  • python taichi 加速 dither仿色抖动算法
    教程9种dither算法与历史发展wiki:bayer有序抖动python生成任意规模bayer矩阵知乎:dither启发的艺术效果,半调/柱形taichindarray文档代码实现taichi_dither.py#!/bin/envpythonimporttaichiastiimportnumpyasnpimportcv2fromcopyimportdeepcopyti.init(......
  • Python--scikit-learn
    数据集sklearn.datasetsfromsklearn.datasetsimportload_iris,fetch_20newsgroups小数据集下载load_xxx大数据集下载fetch_xxx模型KNNK-近邻算法参考距离计算k值选择kd树fromsklearn.neighborsimportKNeighborsClassifierfromsklearn.neighborsimpor......
  • 使用python语言实现获取当前时间,按照电子表样式打印到控制台
    使用python语言实现获取当前时间,按照电子表样式打印到控制台clock.py1fromdatetimeimportdatetime23#数字04zero_line_01='---'5zero_line_02='||'6zero_line_03='||'7zero_line_04='||'8zer......
  • 【动手做】Python实现线性回归
    线性回归是机器学习中形式比较简单的模型,能够很好的进行推导和求解,也便于图形化展示。关于线性回归的概念和表示,在线性回归的概念与表示有比较详细的的介绍。本文通过手动实现、调用scikit-learn类库两种方式演示了线性回归模型,并通过matplotlib进行了可视化展示。实现过程本......
  • python实现十进制转换二进制,tkinter界面
    目录需求效果代码实现代码解释需求python实现十进制转换二进制效果代码实现importtkinterastkfromtkinterimportmessageboxdefconvert_to_binary():try:#获取输入框中的十进制数decimal_number=int(entry.get())#转......
  • Python 语法基础:赋值、深浅拷贝、可变与不可变对象
    Python是一种广泛使用的高级编程语言,其语法简洁且功能强大。本文将详细讲解Python中的赋值、深浅拷贝以及可变与不可变对象的基本概念和使用方法。一、赋值赋值是编程中最基本的操作之一,它用于将值或对象绑定到变量名。在Python中,赋值使用等号=来进行。a=10......
  • python文件排序都有哪些方法
    在python环境中提供两种排序方案:用库函数sorted()对字符串排序,它的对象是字符;用函数sort()对数字排序,它的对象是数字,如果读取文件的话,需要进行处理(把文件后缀名‘屏蔽’)。(1)首先:我测试的文件夹是/img/,里面的文件都是图片,如下图所示:(2)测试库函数sorted(),直接贴出代码:impor......