首页 > 其他分享 >第 14 节 爬虫(2)

第 14 节 爬虫(2)

时间:2023-10-28 11:11:26浏览次数:28  
标签:文件 None 14 url cafile 爬虫 print open

from urllib.request import urlopen
#urLLib相关与URL处理的包管理器
url "http://photo.sina.com.cn/"
con urlopen(url)
print('------')
print(con.read())
cons =con.read()
f open('test.html','wb')
f.write(cons)
f.close()
print(cons.decode('utf-8'))

open

核心:创建一个file对象python的I/0

open(namel,model,buffering]])

buffering:设置缓冲
encoding:一般使用utf8
errors:报错级别
newline:区分换行符
closefd:传入的file参数类型
opener:设置自定义开启器,开启器的返回值必须是一个打开的文件描述符
使用方式直接向上:

1、关于name:想访问的文件名
2、mode:决定打开的模式
m0d->w:只用于写入如果文件存在,则直接打开,并从头进行编辑,进行原覆盖(别了重来),如果没有这个文件,他就会创建一个新的
mode->wb:以二进制格式打开(一般用于非文本文件)

urLLib主要作用:操作网页URL
llib.request.urlopen(url,data=None,[timeout,]*cafile-None,capath=None,cadefault=False,context=None)
url:url地址。
data:发送到服务器的其他数据对象,默认为None。timeout:设置访问超时时间。
cafile和capath:cafile勇CA证书,capath为CA证书的路径,使用HTTPS需要用到。
cadefault:已经被弃用。
context:ssL.SSLContext类型,用来指定SSL设置。

read():主要用于读取网页的内容

 

python文件操作:
对于Excel的操作需要引入openpyxlfile对象属性:
closed告诉结果:文件是否被关闭,如果关闭成功返回true、else-》false
f =open('text.html','wb')
f.closed
f.mode
f.name
f.softspace
如果需要做一些文件外部操作:
如果想要rename->你需要去引入os

 

标签:文件,None,14,url,cafile,爬虫,print,open
From: https://www.cnblogs.com/simadi/p/17793821.html

相关文章

  • 第 14 节 爬虫(1)
    爬虫的应用场景举个例子!如果你需要做一个互联网岗位薪资分析,但是没数据你会怎么做?自己想做一个视频网站,但是没那么多作品怎么办?我想做一个新闻资讯,但是没新闻怎么办?想看一个热度排行,怎么看?做一些批量下载,怎么搞?一、什么是爬虫通俗的讲:就是模拟浏览器抓取数据科学的讲:通过一定......
  • selenium 知网爬虫之根据【关键词】获取文献信息
    哈喽大家好,我是咸鱼之前咸鱼写过几篇关于知网爬虫的文章,后台反响都很不错。虽然但是,咸鱼还是忍不住想诉苦一下有些小伙伴文章甚至代码看都没看完,就问我”为什么只能爬这么多条文献信息?“(看过代码的会发现我代码里面定义了papers_need变量来设置爬取篇数),”为什么爬其他文献不......
  • 2023-2024-1 20231414《计算机基础与程序设计》第5周学习总结
    学期(2023-2024-1)学号(20231414)《计算机基础与程序设计》第五周学习总结作业信息这个作业属于哪个课程<班级的链接>(2023-2024-1-计算机基础与程序设计)这个作业要求在哪里<作业要求的链接>(2023-2024-1计算机基础与程序设计第五周作业)这个作业的目标<Pep/9虚拟机,......
  • 2023-2024-1 20231405 《计算机基础与程序设计》第五周总结
    2023-2024-120231405《计算机基础与程序设计》第五周总结作业信息作业属于哪个课程https://edu.cnblogs.com/campus/besti/2023-2024-1-CFAP作业要求在哪里https://edu.cnblogs.com/campus/besti/2023-2024-1-CFAP/homework/13009作业的目标自学《计算机科学......
  • 第14届蓝桥杯--保险箱
    第14届蓝桥杯--保险箱DP从后往前循环统计状态表示f[i][j]:第i位密码数j状态,(j=0产生退位,1不进不退,2产生进位)集合:所有的方案属性:min状态计算:importjava.util.Arrays;importjava.util.Scanner;/***ClassName:Main04*Package:baidu*Desc......
  • 2023-2024-1 20231402《计算机基础与程序设计》第5周学习总结
    2023-2024-120231402《计算机基础与程序设计》第5周学习总结作业信息这个作业属于哪个课程2023-2024-1-计算机基础与程序设计这个作业要求在哪里2023-2024-1计算机基础与程序设计第5周作业这个作业的目标自学计算机科学概论第6章,《C语言程序设计》第4章作业正......
  • 手把手教你写Python爬虫
    Python爬虫是一个很常见的工具,它能够自动抓取网站数据,并将数据存储到本地或者其他地方。本文将教你如何使用Python编写爬虫,并详细介绍代码实现过程。准备工作在开始编写代码之前,我们需要安装几个必要的Python库,包括requests和beautifulsoup4。这两个库都可以使用pip命令......
  • API商品数据接口调用爬虫实战
    随着互联网的发展,越来越多的商家开始将自己的商品数据通过API接口对外开放,以供其他开发者使用。这些API接口可以提供丰富的商品数据,包括商品名称、价格、库存、图片等信息。对于爬虫开发者来说,通过调用这些API接口,可以更加便捷地获取商品数据,避免了爬取网页数据的繁琐过程。本文将......
  • FastAPI学习-14. JSONResponse 返回JSON内容
    当你创建一个 FastAPI 路径操作 时,你可以正常返回以下任意一种数据:dict,list,Pydantic模型,数据库模型等等。FastAPI 默认会使用 jsonable_encoder 将这些类型的返回值转换成JSON格式,默认情况下会以content-type:application/json格式返回在有些情况下,我们需要在路径操作......
  • Intel 14代酷睿提前上架加拿大:涨价最多7%
    Intel将在10月17日正式发布14代酷睿,说白了就是13代酷睿升级版,代号就能说明一切——RaptorLakeRefresh。首批发布的只是高端的K/KF系列,一共六款,分别是8+1624核心的i9-14900K/KF、8+1220核心的i7-14700K/KF、6+814核心的i5-14600K/F。之前就有传闻称,14代酷睿会涨价。现在,加拿大......