首页 > 其他分享 >爬虫_053_urllib的基本使用

爬虫_053_urllib的基本使用

时间：2024-02-12 18:44:05浏览次数：26

标签：content read 爬虫 urllib decode response 053

目录

urllib简介
基本代码使用

urllib简介

urllib是python自带的，不需要我们安装。

基本代码使用

import urllib.request

url = 'http://www.baidu.com'
response = urllib.request.urlopen(url)
# read()方法返回字节形式的二进制数据b'xxx'，需要解码成字符串
content = response.read().decode('utf-8')
print(content)

这个视频，唯一需要注意的是，read()方法返回的就是字节形式的二进制，还需要通过decode()方法解码成为字符串。

标签：content,read,爬虫,urllib,decode,response,053
From： https://www.cnblogs.com/gnuzsx/p/18014031

相关文章

爬虫_051_页面结构介绍
目录页面结构的介绍看一下html结构评价页面结构的介绍我们的课题，我们不是要页面当中所有的数据，而是要页面当中的一部分数据。如果看HTML，就是上面的a标签当中的文字。所以我们需要了解页面的结构怎么去写。看一下html结构table标签ul标签ol标签a标签主要就是介绍了......
爬虫_052_爬虫相关概念介绍
目录爬虫的定义爬虫就是一个程序，程序运行完成之后，就能够拿到你想要获取的数据。爬虫的奥义就是程序模拟浏览器。爬虫的核心爬虫的难点在于：解析数据。爬虫的用途社交类：陌陌一开始爬微博数据当假的用户。电商类：电商网站互相监控，互相降价。出行类：智行、飞......
Python通过Lxml库解析网络爬虫抓取到的html
Lxml是基于libxml2解析库的Python封装。libxml2是使用C语言编写的，解析速度很好，不过安装起来稍微有点复杂。安装说明可以参考(http://Lxml.de/installation.html)，在CentOS7上中文安装说明(http://www.cjavapy.com/article/64/)，使用lxml库来解析网络爬虫抓取到的HTML是一种非常......
01-爬虫概述
1.什么是爬虫？用代码代替人去模拟浏览器或手机去执行执行某些操作。例如：自动登录钉钉，定时打卡去91自动下载图片/视频去京东抢茅台3.分析&模拟分析一个网址，用requests请求就可以实现。3.1请求分析基于谷歌浏览器去分析。3.2模拟请求基于requests模块发送请求。pip......
第 7章 Python 爬虫框架 Scrapy（上）
第7章Python爬虫框架Scrapy（上）编写爬虫可以看成行军打仗，基本的角色有两个：士兵和将军，士兵冲锋陷阵，而将军更多地是调兵遣将。框架就像一个将军，里面包含了爬虫的全部流程、异常处理和任务调度等。除了可以让我们少写一些烦琐的代码，学习框架还可以学到编程思想和提升编程能力。Pyt......
第 6章 Python 应对反爬虫策略
第6章Python应对反爬虫策略爬取一个网站的基本步骤（1）分析请求：URL规则、请求头规则、请求参数规则。（2）模拟请求：通过Requests库或urllib库来模拟请求。（3）解析数据：获取请求返回的结果，利用lxml、BeautifulSoup或正则表达式提取需要的节点数据。（4）保存数据：把解析的数据持......
爬虫:豆瓣电影Top250
感觉爬虫就是一种自动在网上收集信息的程序对豆瓣Top250的爬取，就是写一个爬虫程序，让他模仿人类行为，打开网站，找到信息，然后提取数据这段代码是使用lxml库来解析HTML，并通过XPath选择器提取数据importrequests#用于发起网络请求。fromlxmlimportetree#用于解析HTML文档,这......
U405333 帕鲁世界迷路的一天题解
题目链接：帕鲁世界迷路的一天前置弱化版：P3604美好的每一天题解一个非常简单的普通莫队解很容易写出来，具体的看我前置弱化版题解，然而这个复杂度高达\(O(26n\sqrt{q})\)，显然无法通过强化版。一种看上去很正确的“假解”我们思考如何去掉这个\(26\)，我们猜想：能够组成\(pre[c......
python爬虫爬取豆瓣电影top250并写入Excel中
importrequestsimportreimportopenpyxl#创建工作表wb=openpyxl.Workbook()ws=wb.active#调整列距forletterin['B','C']:ws.column_dimensions[letter].width=66#发送网络请求headers={"User-Agent":'Mozilla/5.0(WindowsNT10.0;Win64;x64)......
第 1 章 Python 爬虫概念与 Web 基础
第1章Python爬虫概念与Web基础1.1爬虫概念1.1.1什么是爬虫爬虫，即网络爬虫，又称网络蜘蛛（WebSpider），是一种按照一定规则，用来自动浏览或抓取万维网数据的程序。可以把爬虫程序看成一个机器人，它的功能就是模拟人的行为去访问各种站点，或者带回一些与站点相关的信息。它可以2......

赞助商

阅读排行