一 文件操作
一 介绍
计算机系统分为:计算机硬件,操作系统,应用程序三部分。
我们用python或其他语言编写的应用程序若想要把数据永久保存下来,必须要保存于硬盘中,这就涉及到应用程序要操作硬件,众所周知,应用程序是无法直接操作硬件的,这就用到了操作系统。操作系统把复杂的硬件操作封装成简单的接口给用户/应用程序使用,其中文件就是操作系统提供给应用程序来操作硬盘虚拟概念,用户或应用程序通过操作文件,可以将自己的数据永久保存下来。
有了文件的概念,我们无需再去考虑操作硬盘的细节,只需要关注操作文件的流程:
#1. 打开文件,得到文件句柄并赋值给一个变量 #2. 通过句柄对文件进行操作 #3. 关闭文件
1、什么是文件 文件是操作系统提供给用户/应用程序操作硬盘的一种虚拟的概念/接口 用户/应用程序(open()) 操作系统(文件) 计算机硬件(硬盘) 2、为何要用文件 用户/应用程序可以通过文件将数据永久保存到硬盘中 既操作文件就是操作硬盘 用户/应用程序直接操作的是文件,对文件进行的所有的操作,都是 在向操作系统发送系统调用,然后再由操纵将其转换成具体的硬盘操作 3、如何用文件:open() 控制文件读写内容的模式:t和b 强调:t和b不能单独使用,必须要跟r/w/a连用 # t文本(默认的模式) 1、读写都以str(unicode)为单位的 2、文本文件 3、必须指定encoding='utf-8' # b二进制/bytes # 控制文件读写操作的模式 # r只读模式 # w只写模式 # a只追加写模式 # +:r+、w+、a+
# 没有指定unccoding参数操作系统会使用自己默认的编码
# linux系统默认utf-8
# windows系统默认gbk
with open(r'a.txt', mode='rt', encoding='utf-8') as f:
res = f.read() # t模式会将f.read()读出的结果解码成unicode
print(f, type(f))
print(res)
# 内存:utf-8格式的二进制-----解码(decoding)----》unicode
# 硬盘(a.txt内容:utf-8格式的二进制)
# t模式方便了文本的读写,不然还有个unicode的编码和解码
二 在python中
#1. 打开文件,得到文件句柄并赋值给一个变量 f=open('a.txt','r',encoding='utf-8') #默认打开模式就为r #2. 通过句柄对文件进行操作 data=f.read() #3. 关闭文件 f.close()
三 f=open('a.txt','r')的过程分析
#1、由应用程序向操作系统发起系统调用open(...) #2、操作系统打开该文件,并返回一个文件句柄给应用程序 #3、应用程序将文件句柄赋值给变量f
四 强调!!!
#强调第一点: 打开一个文件包含两部分资源:操作系统级打开的文件+应用程序的变量。在操作完毕一个文件时,必须把与该文件的这两部分资源一个不落地回收,回收方法为: 1、f.close() #回收操作系统级打开的文件 2、del f #回收应用程序级的变量 其中del f一定要发生在f.close()之后,否则就会导致操作系统打开的文件还没有关闭,白白占用资源, 而python自动的垃圾回收机制决定了我们无需考虑del f,这就要求我们,在操作完毕文件后,一定要记住f.close() 虽然我这么说,但是很多同学还是会很不要脸地忘记f.close(),对于这些不长脑子的同学,我们推荐傻瓜式操作方式:使用with关键字来帮我们管理上下文 with open('a.txt','w') as f: pass with open('a.txt','r') as read_f,open('b.txt','w') as write_f: data=read_f.read() write_f.write(data)
#强调第二点: f=open(...)是由操作系统打开文件,那么如果我们没有为open指定编码,那么打开文件的默认编码很明显是操作系统说了算了,操作系统会用自己的默认编码去打开文件,在windows下是gbk,在linux下是utf-8。 这就用到了上节课讲的字符编码的知识:若要保证不乱码,文件以什么方式存的,就要以什么方式打开。 f=open('a.txt','r',encoding='utf-8')
五 python2中的file与open
#首先在python3中操作文件只有一种选择,那就是open() #而在python2中则有两种方式:file()与open() 两者都能够打开文件,对文件进行操作,也具有相似的用法和参数,但是,这两种文件打开方式有本质的区别,file为文件类,用file()来打开文件,相当于这是在构造文件类,而用open()打开文件,是用python的内建函数来操作,我们一般使用open()打开文件进行操作,而用file当做一个类型,比如type(f) is file
二 打开文件的模式
# coding:gbk # 1、打开文件 # windows路径分隔符问题 # open('c:\a\liuqiao\d.txt') # 解决方案一:推荐 # open(r'c:\a\liuqiao\d.txt') # 解决方案二: # open('c:/a/liuqiao/d.txt') f = open(r'E:\Python学习\python全栈学习\day11\a.txt', mode='rt', encoding='utf-8') # f的值是一种变量,占用的是应用程序的内存空间 print(f) print(type(f)) # <_io.TextIOWrapper name='E:\\学习\\Python学习\\pycharm编程实践\\day11\\a.txt' mode='r' encoding='cp936'> # f是文本数据类型 # # 2、操作文件:读/写文件,应用程序对文件的读写请求都是在向操作系统发送 # 系统调用,然后由操作系统控制硬盘把输入读入内存、或者写入硬盘 res = f.read() print(res) # print(f.read()) # 3、关闭文件 # f.close() #回收操作系统资源 # print(f) #变量f存在,但是不能再读 # f.read()#变量f存在,但是不能再读
件句柄 = open('文件路径', '模式')
模式可以是以下方式以及他们之间的组合:
Character | Meaning |
‘r' | open for reading (default) |
‘w' | open for writing, truncating the file first |
‘a' | open for writing, appending to the end of the file if it exists |
‘b' | binary mode |
‘t' | text mode (default) |
‘+' | open a disk file for updating (reading and writing) |
‘U' | universal newline mode (for backwards compatibility; should not be used in new code) |
#1. 打开文件的模式有(默认为文本模式): r ,只读模式【默认模式,文件必须存在,不存在则抛出异常】 w,只写模式【不可读;不存在则创建;存在则清空内容】 a, 之追加写模式【不可读;不存在则创建;存在则只追加内容】 #2. 对于非文本文件,我们只能使用b模式,"b"表示以字节的方式操作(而所有文件也都是以字节的形式存储的,使用这种模式无需考虑文本文件的字符编码、图片文件的jgp格式、视频文件的avi格式) rb wb ab 注:以b方式打开时,读取到的内容是字节类型,写入时也需要提供字节类型,不能指定编码 #3. 了解部分 "+" 表示可以同时读写某个文件 r+, 读写【可读,可写】 w+,写读【可读,可写】 a+, 写读【可读,可写】 x, 只写模式【不可读;不存在则创建,存在则报错】 x+ ,写读【可读,可写】 xb
# 回车与换行的来龙去脉 http://www.cnblogs.com/linhaifeng/articles/8477592.html # U模式 'U' mode is deprecated and will raise an exception in future versions of Python. It has no effect in Python 3. Use newline to control universal newlines mode. # 总结: 在python3中使用默认的newline=None即可,换行符无论何种平台统一用\n即可
三 操作文件的方法
以t模式为基础进行内存操作
# 1、r(默认的操作模式):只读模式,当文件不存在时报错,当文件存在时文件指针跳到开始位置 with open(r'a.txt', mode='rt', encoding='utf-8') as f: print('第一次读'.center(30, '*')) res = f.read() print(res) print('第二次读'.center(30, '*')) res1 = f.read() print(res1)
# 小练习:实现用户认证功能 # 方案一 inp_name = input('请输入你的名字: ').strip() inp_pwd = input('请输入你的密码: ').strip() with open(r'user.txt', mode='r', encoding='utf-8') as f: res = f.read() l1 = res.split() # 以\n为界切分成列表 print(l1) for l2 in l1: # 遍历列表,生成新的name和pwd的列表 u, p = l2.split(':') # 列表解压赋值 print(u, p) if inp_name == u and inp_pwd == p: print('登录成功') break else: print('账号名或者密码错误') # 方案二 inp_name = input('请输入你的名字: ').strip() inp_pwd = input('请输入你的密码: ').strip() with open(r'user.txt', mode='r', encoding='utf-8') as f: for line in f: # 生成的line是字符串(含了.read的功能),先.strip去除字符串前后的\n,再.split以':'为界切分成列表。 print(line, end='') # liuqiao:123\n print(line.strip('\n').split(':')) u, p = line.strip('\n').split(':') # 把用户输入的名字与密码与读出内容做比对 if inp_name == u and inp_pwd == p: print('登录成功') break else: print('账号名或者密码错误') # 应用程序---》文件 # 应用程序---》数据库管理软件----》文件
# 2、w:只写模式 ,当文件不存在时会创建空文件,当文件存在会清空文件,指针位于开始位置 with open('test.txt', mode='wt', encoding='utf-8') as f: f.write('x') f.write('lq') # 强调1 # 在以w模式打开文件没有关闭的情况下,连续写入,新的内容总是跟在旧的之后 with open('a.txt', mode='wt', encoding='utf-8') as f: f.write('I love you !\n') f.write('real\n') f.write('yes\n') # 强调2 # 如果重新以w模式打开文件,则会清空文件内容 # 案例:w模式用来创建全新的文件 # 文本文件的copy工具 with open('a.txt', mode='r', encoding='utf-8') as f1, \ open('c.txt', mode='w', encoding='utf-8') as f2: res = f1.read() f2.write(res) # 路径copy
# 3、a:只追加写,在文件不存在时会创建空文档,文件存在会将文件指针直接移动到文件末尾 with open('aaa.txt', mode='at', encoding='utf-8') as f: f.write('I love you !\n') f.write('real\n') f.write('yes\n') ''' #强调 w 模式与 a 模式的异同: # 1 相同点:在打开的文件不关闭的情况下,连续的写入,新写的内容总会跟在前面写的内容之后 # 2 不同点:以 a 模式重新打开文件,不会清空原文件内容,会将文件指针直接移动到文件末尾,新写的内容永远写在最后 ''' # 案例:a模式用来在原有的文件内存的基础之上写入新的内容,比如记录日志、注册功能 # 注册功能 ipname = input('请输入账号:').strip() ippasword = input('请输入密码:').strip() with open('register.txt', mode='a', encoding='utf-8') as f: f.write('{}:{}\n'.format(ipname, ippasword))
# 4、了解:+不能单独使用,必须配合r、w、a with open('c.txt', mode='r+', encoding='utf-8') as f: f.read() f.write('南平\n') f.write('南平平\n') # w+,a+,.read()从指针位置开始读 # r+ w+ a+ :可读可写 # 在平时工作中,我们只单纯使用r/w/a,要么只读,要么只写,一般不用可读可写的模式
以b模式为基础进行内存操作
t:
1、读写都是以字符串(unicode)为单位
2、只能针对文本文件
3、必须指定字符编码,既必须指定encoding参数
b:binary模式
1、读写都是以bytes为单位
2、可以针对所有文件
3、一定不能指定字符编码,一定不要指定encoding参数
with open(r'C:\Users\qiao\Desktop\test1.jpg', mode='rb') as f: res = f.read() # 硬盘的二进制读入内存--->b模式,不做任何转换,直接读入内存 print(res) # bytes类型-->当成二进制 print(type(res)) with open(r'aa.txt', mode='rb') as f: res = f.read() # utf-8的二进制 print(res) print(type(res)) res1 = res.decode() # 解码,就是t模式 print(res1)
强调:b模式对比t模式
1、在操作纯文本文件方面t模式帮我们省去了编码与解码的环节,b模式则需要手动编码与解码,所以此时t模式更为方便
2、针对非文本文件(如图片、视频、音频等)只能使用b模式
# 例子b模式下的w模式,文本举例 with open(r'bb.txt', mode='wb') as f: res = f.write('小宝小小宝'.encode('utf-8'))
# 文件拷贝工具 src_file = input('源文件路径: ').strip() dst_file = input('目标文件路径: ').strip() with open(r'{}'.format(src_file), mode='rb') as read_f, open(r'{}'.format(dst_file), mode='wb') as write_f: for line in read_f: print(line) write_f.write(line)
循环读取文件:
# 方式一:自己控制每次读取的数据的数据量 with open(r'test1.jpg', mode='rb') as f: while True: res = f.read(1024) # 1024个字节为单位读取,数量是编写者为准 if len(res) == 0: break print(res) print(len(res))
# 方式二:以行为单位读,当一行内容过长时会导致一次性读入内容的数据量过大 with open(r'cc.txt', mode='rb') as f: for line in f: print(line) with open(r'test1.jpg', mode='rb') as f1: for line in f1: print(line) # bytes类型数据也可通过for循环一行一行的读出来,\n为一行
文件操作的其他方法
# 一、读操作 # 1、readline:一次读一行,读取一行内容,光标移动到第二行首部 with open(r'aa.txt', mode='rt', encoding='utf-8') as f: res = f.readline() print(res, end='') # end默认'\n' res1 = f.readline() print(res1, end='*') with open(r'aa.txt', mode='rt', encoding='utf-8') as f1: while True: res2 = f1.readline() if len(res2) == 0: break print(res2, end='') # 2、readlines:读取每一行内容,存放于列表中 with open(r'aa.txt', mode='rt', encoding='utf-8') as f: res = f.readlines() print(res) # end默认'\n' ['liuqiao\n', '刘巧\n', 'xiaobao'] # f.read()与f.readlines()都是将内容一次性读入内容,如果内容过大会导致内存溢出
# 二:写相关操作 # f.writeline(): with open(r'dd.txt', mode='wt', encoding='utf-8') as f: f.writelines(['小宝\n', 'xiaobao\n', '123']) with open(r'dd.txt', mode='rt', encoding='utf-8') as f1: res = f1.read() print(res, type(f1.read())) print(f1.read()) # print在with子代码下,打印不出得,已关闭文件了
with open(r'ee.txt', mode='wb') as f: # 补充1:如果是纯英文字符吗,可以直接加前缀b得到bytes类型 # l = [b'lq', b'xiaobao', b'123'] # 补充2:'上'.encode('utf-8')等同于bytes('上',encoding('utf-8') l = [bytes('小宝\n', encoding='utf-8'), bytes('xiaobao\n', encoding='utf-8'), b'xiaobao123'] f.writelines(l)
# flush:立刻将文件内容从内存刷到硬盘,因为操作系统会在内存存了一堆数据后,再写入硬盘,操作系统已优化,flush用来测试 with open(r'ff.txt', mode='wt', encoding='utf-8') as f: f.write('小宝123') f.flush()
# 三.了解 with open(r'hh.txt', mode='wt', encoding='utf-8') as f: print(f.readable()) print(f.writable()) print(f.encoding) print(f.closed) print(f.closed)
四、控制文件指针的移动
# 指针移动的单位都是一bytes字节为单位 # 只有有一种情况特殊: # t模式下的read(n),n代表的是字符个数 # f.seek(n,模式):n指的是移动的字节个数 # 模式: # 模式0:参照物是文件开头位置 # f.seek(9,0) # f.seek(3,0) # 3 with open(r'ff.txt', mode='rt', encoding='utf-8') as f: f.seek(3, 0) # 参照文件开头移动了3个字节 print(f.tell()) # 查看当前文件指针距离文件开头的位置,输出结果为3 print(f.read()) # 从第3个字节的位置读到文件末尾,输出结果为:宝123;read从指针位置开始,往后读 # 注意:由于在t模式下,会将读取的内容自动解码,所以必须保证读取的内容是一个完整中文数据,否则解码失败,一个中文是3个bytes with open('ff.txt', mode='rb') as f: f.seek(6, 0) print(f.tell()) print(f.read().decode('utf-8')) # 输出结果为:123
# 模式1:参照物是当前指针所在的位置 # f.seek(9,1) # f.seek(3,1) #12 with open(r'ff.txt', mode='rb') as f: f.seek(3, 1) # 从当前位置往后移动3个字节,而此时的当前位置就是文件开头 print(f.tell()) # 输出结果为:3 f.seek(4, 1) # 从当前位置往后移动4个字节,而此时的当前位置为3 print(f.tell()) # 输出结果为:7 # 模式2:参照物是文件末尾位置,应该倒着移动 # f.seek(9,2) #末尾了,不能在向右移动,还是末尾位置 # f.seek(-9,2) #应该倒着移动 with open(r'ff.txt', mode='rb') as f: f.seek(0, 2) # 参照文件末尾移动0个字节, 即直接跳到文件末尾 print(f.tell()) # 输出结果为:9 f.seek(-3, 2) # 参照文件末尾往前移动了3个字节 print(f.read().decode('utf-8')) # 输出结果为:123
自己总结文件内容b模式下:f.write('xxx'.encode('utf-8'));f.read().decode('utf-8'),写是编码,读是解码。
# 之前文件内指针的移动都是由读/写操作而被动触发的,若想读取文件某一特定位置的数据,则则需要用f.seek方法主动控制文件内指针的移动,详细用法如下:
# f.seek(指针移动的字节数,模式控制):
# 模式控制:
# 0: 默认的模式,该模式代表指针移动的字节数是以文件开头为参照的
# 1: 该模式代表指针移动的字节数是以当前所在的位置为参照的
# 2: 该模式代表指针移动的字节数是以文件末尾的位置为参照的
# 强调:其中0模式可以在t或者b模式使用,而1跟2模式只能在b模式下用
# f.tell() #获取文件指针当前位置
五、文件修改的两种方式
# 强调: # 1、硬盘空间是无法修改的,硬盘中数据的更新都是用新内容覆盖旧内容 # 2、内存中的数据是可以修改的 # 1 文件修改方式一 # 实现思路:将文件内容发一次性全部读入内存,然后在内存中修改完毕后再覆盖写回原文件 # 优点: 在文件修改过程中同一份数据只有一份 # 缺点: 会过多地占用内存 with open('aaa.txt', mode='rt', encoding='utf-8') as f: data = f.read() with open('aaa.txt', mode='wt', encoding='utf-8') as f: f.write(data.replace('xiaobao', 'zzzzdddd')) # 2 文件修改方式二 # 实现思路:以读的方式打开原文件,以写的方式打开一个临时文件,一行行读取原文件内容,修改完后写入临时文件...,删掉原文件,将临时文件重命名原文件名 # 优点: 不会占用过多的内存 # 缺点: 在文件修改过程中同一份数据存了两份 import os with open('aaa.txt', mode='rt', encoding='utf-8') as read_f, \ open('.db.txt.swap', mode='wt', encoding='utf-8') as wrife_f: for line in read_f: wrife_f.write(line.replace('zzzzdddd', 'xiaobao')) os.remove('aaa.txt') os.rename('.db.txt.swap', 'aaa.txt')
标签:文件,utf,python,mode,print,操作,txt,open From: https://www.cnblogs.com/coderxueshan/p/17234752.html