首页 > 编程语言 >Python爬虫基础——06-文件的读写

Python爬虫基础——06-文件的读写

时间:2023-03-25 16:01:54浏览次数:32  
标签:fp 文件 06 Python 爬虫 json test txt open

2.12文件

2.12.1文件的打开和关闭:

在python中,使用open函数,可以打开一个已存在的文件夹,或者创建一个新文件

open( 文件路径,访问模式 )

示例如下:

f = open('test.txt','w')

文件路径:

绝对路径:指的是绝对位置,完整的描述目标所在地,所有目录层级关系是一目了然的。

E:\python

从电脑的盘符开始,表示的就是一个绝对路径。

相对路径::是从文件所在的文件夹开始的路径。

路径

说明

test.txt

是在当前文件夹中查找test.txt文件。

./test.txt

也是在当前文件夹中里查找test.txt,文件 ./表示得是当前文件夹。

../test.txt

是从当前文件夹的上一级文件夹里查找test.txt文件。 .// 表示的是上一级文件。

demo/test.txt

在当前文件夹中里面查找demo这个文件夹,并在这个文件夹里查找test.txt文件。

访问模式:

访问

说明

r

以只读的方式打开文件。文件的指针将会放在文件的开头。如果文件不存在则报错

w

打开一个文件只用于写入。如果该文件已存在则覆盖,不存在则创建新文件

a

打开一个文件用于追加。如果文件已存在,文件指针将会放在文件末尾。没有则创建进行写入

r+

打开一个文件用于读写,文件指针将会放在文件开头

w+

打开一个文件用于读写,该文件已存在则进行覆盖,没有则创建新文件

a+

打开一个文件用于读写,如果已存在则将指针放在文件的结尾,文件打开时是追加模式,不存在创建用于读写

rb

已二进制格式打开一个文件用于只读。文件指针将会放在文件的开头

wb

已二进制格式打开一个文件用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件

ab

已二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入

rb+

已二进制格式打开一个文件用于读写。文件指针将会放在文件的开头

wb+

已二进制格式打开一个文件用于读写。如果文件已存在则将其覆盖。如果文件不存在,创建新文件

ab+

已二进制格式打开一个文件用于读写。如果文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写

# 创建一个test.txt文件
# open(文件的路径/模式)
# 模式: w表示可写   r 表示可读
open('test.txt','w')

# 向刚刚创建的test.txt文件书写内容为hello,world
fp = open('test.txt','w')
fp.write('hello,world')

# 文件夹是不可以被创建的
# 例如我们没有demo文件夹而我们在此创建一个test文件
fp =  open('demo/test.txt','w')  # 执行失败
fp =  open('demo/test.txt','w')  # 左边目录创建好一个demo目录之后执行成功
fp.write('hello')  # 执行成功输入内容


# 文件的关闭
fp = open('a.txt','r')
fp.write('hello')
fp.close()

2.12.2文件的读写:

写数据(write)

使用write()可以完成向文件写入数据

demo: 新建一个文件file_write_test.py,向其中写入如下代码:

f = open('test.txt','w')
f.write('hello world, i an here!\n' * 5)
f.close()
# 运行之后会在file_write_test.py文件所在的路径中创建一个文件test.txt并写入内容
# (1)写数据
# write方法
fp = open('test.txt','w')
fp.write('hello world, i am here' * 5)  # 连续输出在一行
fp.write('hello world, i am here\n' * 5)  # 加上\n之后一句一句输出连续输出5行显示的整洁
fp.close()

# 如果我再次来运行这行代码  会打印10次还是5次呢?   还是5次
# 如果文件存在  会先清空原来的数据  然后在写入
# 我想在每一次执行之后追加新的数据   把 其中的'w' 替换成'a'即可追加数据  如下

fp = open('test.txt','a')  # 运行几次则就追加几次
fp.write('hello world, i am here\n' * 5)
fp.close()
# (2)读数据
fp = open('test.txt','r')

# 默认情况下read是一字节一字节进行读取  效率比较低
content = fp.read()
print(content)  # 即可输出test.txt中的内容

# readline 是一行一行的读取  不过只能读取一行内容
content = fp.readline()
print(content)

# readlines  可以按照行来读取 可以将所有的数据都读取到  并且以一个列表的形式返回
# 而列表的元素是一行一行的数据
content = fp.readlines()
print(content)

2.12.3文件的序列化和反序列化:

通过文件操作,我们可以将字符串写入到一个本地文件。但是如果一个对象(例如列表,字典,元组等),就无法直接写入到一个文件里,需要对这个对象进行序列化,然后才能写入到文件里。

设计一套协议,按照某种规则,把内存中的数据转换为字节序列,保存到文件,这就是序列化,反之,从文件的字节序列恢复到内存中,就是反序列化。

对象---字节序列 ==== 序列化

字节序列---对象 ==== 反序列化

python中提供了JSON这个模块用来实现数据的序列化和反序列化。

JOSN模块

JOSN---是一种轻量级的数据交换标准,JOSN的本质是字符串。

使用JOSN实现序列化

JOSN提供了dump和dumps方法,将一个对象进行序列化。

dumps方法的作用是把对象转换成字符串,它本身不具备将数据写入到文件的功能。

fp = open('test.txt','w')
# 默认情况下我们只能将字符串写入到文件内
fp.write('hello world')
fp.close()

fp = open('test','w')
name_list = ['zhangsan','lisi']

fp.write(name_list)  # 例如我们将一个列表写入到文件内  结果输入不进去  所以我们需要进行转换

序列化   json.dumps

# 序列化的两种方式
# (1)dumps()

# 创建一个文件
fp = open('test.txt','w')

# 然后定义一个列表
name_list = ['zhangsan','lisi']

# 因为默认列表不能进行写入所以需要导入json
# 导入json模块到该文件中
import json

# 序列化
# 将python对象 变成json字符串
names = json.dumps(name_list)
print(names)  # 输出["zhangsan", "lisi"]

# 查看数据类型是否变成字符串
print(type(names))  # 输出<class 'str'>

# 将names写入到test.txt文件中
fp.write(names)  # 已经写入成功
fp.close()

# json的使用场景是在scrapy框架的时候  该框架返回一个对象 我们需要将对象写入到文件中 需要使用json.dumps

序列化json.dump

# dump
# 在将对象转换为字符串的同时  指定一个文件的对象  然后把转换后的字符串写入到这个文件里

# 创建一个文件
fp = open('test.txt','w')

# 创建一个列表
name_list = ['kenan','xinyi']

# 导入json模块
import json

# 进行调用
# # 相当于names = json.dumps(name_list)  和 fp.write(names)
json.dump(name_list,fp)

fp.close()

反序列化json.loads

# 反序列化
# 将json的字符串变成一个python对象

fp = open('test.txt','r')
content = fp.read()

# 读取之后 是字符串类型
print(content)
print(type(content))  # 输出类型是字符串<class 'str'>

# 两种方法
# (1) loads

import json
# 将json字符串变成python对象
result = json.loads(content)
print(result)
print(type(result))  # 输出类型是列表<class 'list'>
fp.close()

反序列化json.load

# (2)load
fp = open('test.txt','r')

import json
result = json.load(fp)

print(result)
print(type(result))
fp.close()

2.12.3文件的异常:

格式:

# try:
#     可能出现的异常代码
# except  异常类型
#         友好的提示
try:
    fp = open('test.txt','r')
    fp.read()
except FileExistsError:
    print('系统正在升级请稍后再试。。。')


标签:fp,文件,06,Python,爬虫,json,test,txt,open
From: https://blog.51cto.com/lyx888/6149544

相关文章

  • python安装和环境配置(pip镜像,virtualenv和virtualenvwrapper)
    一、windows中python安装和环境配置安装python不多说,去官网下载对应python版本执行包安装即可,注意安装时选择把python加入环境变量。设置pip镜像在C:\Users\用......
  • 2023爬虫学习笔记 -- MongoDB数据库
    一、下载安装mongodb1、下载地址https://www.mongodb.com/try/download/community2、一路下一步安装,路径不要出现空格中文等特殊字符3、设置环境变量将bin目录地址放到path......
  • Python爬虫基础——04-流程控制语句
    2.8,输出-输入2.8.1输出:#普通输出print('江户川柯南')#格式化输出#爬虫用法---在scrapy框架的时候输出到excel文件mysqlredisage=18name='工藤新......
  • python 复制幻灯片并替换相应文字作为新的幻灯片
    1.安装#pipinstallpython-pptx-ihttps://pypi.tuna.tsinghua.edu.cn/simple#pipinstallpandas-ihttps://pypi.tuna.tsinghua.edu.cn/simple2.代码 复制幻灯片......
  • Python爬虫基础——01-安装环境
    python3.8.7安装官网如果下载过慢可以使用下方链接下载python-3.8.7压缩包输入lyx进入下载https://wwxj.lanzout.com/iROc80r16koj以下安装详解:Documentation安装Pyth......
  • bzoj 2806 [Ctsc2012]Cheat
    2806:[Ctsc2012]CheatTimeLimit: 20Sec  MemoryLimit: 256MBSubmit: 1324  Solved: 676[Submit][Status][Discuss]DescriptionInput第一行两个......
  • bzoj 2594 [Wc2006]水管局长数据加强版
    2594:[Wc2006]水管局长数据加强版TimeLimit: 25Sec  MemoryLimit: 128MBSubmit: 3509  Solved: 1119[Submit][Status][Discuss]DescriptionSC省M......
  • python基础五(文件操作)
    一文件操作一介绍计算机系统分为:计算机硬件,操作系统,应用程序三部分。我们用python或其他语言编写的应用程序若想要把数据永久保存下来,必须要保存于硬盘中,这就涉及到应......
  • Python异步下载m3u8
    在Python中,你可以使用aiohttp库和asyncio进行异步HTTP请求,以及使用ffmpeg库对m3u8文件进行处理。首先,确保安装了以下库:pipinstallaiohttppipinstallffmpeg-python然后,......
  • ChatGPT问答[2]-Python类中的方法是闭包吗?是否拥有闭包的性质?
    问答1Python类中的方法并不是闭包,但是它们可以拥有闭包的性质,这取决于方法中是否使用了外部函数的变量。闭包是指在函数内部定义的函数,并且内部函数可以访问外部函数的变......