首页 > 其他分享 >爬虫_054_urllib的1个类型和6个方法

爬虫_054_urllib的1个类型和6个方法

时间:2024-02-12 19:00:33浏览次数:41  
标签:baidu https 55 方法 爬虫 urllib chat 054 com

目录

1个类型

image-20240212183950031

response的类型是HTTPResponse

read()方法

read():一个字节一个字节去读取,直到读完。

read(5):读取5个字节

image-20240212184229404

readline()方法

readline()方法就是读取一行。

image-20240212184343376

readlines()方法

readlines()方法的意思是:一行一行地去读取,直到读完。

image-20240212184521582

需要注意的是,readlines()读出来的是一个list。

list对象是没有decode属性的。

image-20240212184619333

从上面的图片,可以很清楚看到,readlines()读出来的是list对象。

getcode()方法

image-20240212184744365

返回状态码

geturl()方法

获取请求的url

image-20240212184814047

getheaders()方法

返回响应头

image-20240212184840510

[('Connection', 'close'), 
('Content-Length', '404954'), 
('Content-Security-Policy', "frame-ancestors 'self' https://chat.baidu.com http://mirror-chat.baidu.com https://fj-chat.baidu.com https://hba-chat.baidu.com https://hbe-chat.baidu.com https://njjs-chat.baidu.com https://nj-chat.baidu.com https://hna-chat.baidu.com https://hnb-chat.baidu.com http://debug.baidu-int.com;"), 
('Content-Type', 'text/html; charset=utf-8'), 
('Date', 'Mon, 12 Feb 2024 10:48:23 GMT'), 
('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), 
('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), 
('Server', 'BWS/1.1'), 
('Set-Cookie', 'BAIDUID=D48F970912F21D3738803143CDB24906:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), 
('Set-Cookie', 'BIDUPSID=D48F970912F21D3738803143CDB24906; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), 
('Set-Cookie', 'PSTM=1707734903; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), 
('Set-Cookie', 'BAIDUID=D48F970912F21D37D5E87640D9EB655E:FG=1; max-age=31536000; expires=Tue, 11-Feb-25 10:48:23 GMT; domain=.baidu.com; path=/; version=1; comment=bd'), 
('Traceid', '1707734903058903015411385749501895298797'), 
('Vary', 'Accept-Encoding'), 
('X-Ua-Compatible', 'IE=Edge,chrome=1'), 
('X-Xss-Protection', '1;mode=block')]

image-20240212183815920

标签:baidu,https,55,方法,爬虫,urllib,chat,054,com
From: https://www.cnblogs.com/gnuzsx/p/18014039

相关文章

  • 爬虫_053_urllib的基本使用
    目录urllib简介基本代码使用urllib简介urllib是python自带的,不需要我们安装。基本代码使用importurllib.requesturl='http://www.baidu.com'response=urllib.request.urlopen(url)#read()方法返回字节形式的二进制数据b'xxx',需要解码成字符串content=respons......
  • 爬虫_051_页面结构介绍
    目录页面结构的介绍看一下html结构评价页面结构的介绍我们的课题,我们不是要页面当中所有的数据,而是要页面当中的一部分数据。如果看HTML,就是上面的a标签当中的文字。所以我们需要了解页面的结构怎么去写。看一下html结构table标签ul标签ol标签a标签主要就是介绍了......
  • 爬虫_052_爬虫相关概念介绍
    目录爬虫的定义爬虫就是一个程序,程序运行完成之后,就能够拿到你想要获取的数据。爬虫的奥义就是程序模拟浏览器。爬虫的核心爬虫的难点在于:解析数据。爬虫的用途社交类:陌陌一开始爬微博数据当假的用户。电商类:电商网站互相监控,互相降价。出行类:智行、飞......
  • Python通过Lxml库解析网络爬虫抓取到的html
    ​Lxml是基于libxml2解析库的Python封装。libxml2是使用C语言编写的,解析速度很好,不过安装起来稍微有点复杂。安装说明可以参考(http://Lxml.de/installation.html),在CentOS7上中文安装说明(http://www.cjavapy.com/article/64/),使用lxml库来解析网络爬虫抓取到的HTML是一种非常......
  • 01-爬虫概述
    1.什么是爬虫?用代码代替人去模拟浏览器或手机去执行执行某些操作。例如:自动登录钉钉,定时打卡去91自动下载图片/视频去京东抢茅台3.分析&模拟分析一个网址,用requests请求就可以实现。3.1请求分析基于谷歌浏览器去分析。3.2模拟请求基于requests模块发送请求。pip......
  • 第 7章 Python 爬虫框架 Scrapy(上)
    第7章Python爬虫框架Scrapy(上)编写爬虫可以看成行军打仗,基本的角色有两个:士兵和将军,士兵冲锋陷阵,而将军更多地是调兵遣将。框架就像一个将军,里面包含了爬虫的全部流程、异常处理和任务调度等。除了可以让我们少写一些烦琐的代码,学习框架还可以学到编程思想和提升编程能力。Pyt......
  • 第 6章 Python 应对反爬虫策略
    第6章Python应对反爬虫策略爬取一个网站的基本步骤(1)分析请求:URL规则、请求头规则、请求参数规则。(2)模拟请求:通过Requests库或urllib库来模拟请求。(3)解析数据:获取请求返回的结果,利用lxml、BeautifulSoup或正则表达式提取需要的节点数据。(4)保存数据:把解析的数据持......
  • 爬虫:豆瓣电影Top250
    感觉爬虫就是一种自动在网上收集信息的程序对豆瓣Top250的爬取,就是写一个爬虫程序,让他模仿人类行为,打开网站,找到信息,然后提取数据这段代码是使用lxml库来解析HTML,并通过XPath选择器提取数据importrequests#用于发起网络请求。fromlxmlimportetree#用于解析HTML文档,这......
  • python爬虫爬取豆瓣电影top250并写入Excel中
    importrequestsimportreimportopenpyxl#创建工作表wb=openpyxl.Workbook()ws=wb.active#调整列距forletterin['B','C']:ws.column_dimensions[letter].width=66#发送网络请求headers={"User-Agent":'Mozilla/5.0(WindowsNT10.0;Win64;x64)......
  • 执行truncate时报错:ORA-00054:资源正忙但指定以NOWAIT 方式获取资源或者超时失效,怎样
    在执行TRUNCATE语句时出现错误,可能是由于以下原因之一:表正在被其他会话使用:如果表正在被其他会话使用,您将无法执行TRUNCATE操作。请确保没有其他会话正在使用该表,并尝试再次执行TRUNCATE。权限不足:如果您没有足够的权限来执行TRUNCATE操作,则会收到错误消息。请确保您具有足......