文件的编码
简介
计算机只能识别:0和1,那么我们丰富的文本文件是如何被计算机识别,并存储在硬盘中呢?
使用编码技术(密码本)将内容翻译成0和1存入。
编码技术即:翻译的规则,记录了如何将内容翻译成二进制,以及如何将二进制翻译回可识别内容。
计算机中有许多可用编码:
- UTF-8
- GBK
- Big5
- 等
不同的编码,将内容翻译成二进制也是不同的。
编码有许多,所以要使用正确的编码,才能对文件进行正确的读写操作。
如上,如果你给喜欢的女孩发送文件,使用编码A进行编码(内容转二进制)。女孩使用编码B打开文件进行解码(二进制反转回内容)。
查看文件编码
可以使用windows系统自带的笔记本,打开文件后,即可看出文件的编码是什么
UTF-8是目前全球通用的编码格式,除非有特殊需求,否则,一律以UTF-8格式进行文件编码即可。
总结
1、什么事编码?
编码就是一种规则集合,记录了内容和二进制间进行相互转换的逻辑。编码有许多种,最常用的是UTF-8。
2、为什么需要使用编码?
计算机只认识0和1,所以需要将内容翻译成0和1才能保存在计算机中。同时也需要编码将计算机保存的0和1,反向翻译回可以识别的内容。
文件的读取
什么是文件
内存中存放的数据在计算机关机后就会消失,要长久保存数据就要使用硬盘、光盘、U盘等设备。位了便于数据的管理和检索,引入了“文件”的概念。
一篇文章、一段视频、一个可执行程序,都可以被保存为一个文件,并赋予一个文件名。操作系统以文件为单位管理磁盘中的数据。一般来说,文件可分为文本文件、视频文件、音频文件、图像文件、可执行文件等多种类别。
文件操作包含哪些内容
在日常生活中,文件操作主要包括打开、关闭、读、写等操作。
文件的操作步骤
平常对文件的操作大概可分为三个步骤(简称文件操作三步走):
- 打开文件
- 读写文件
- 关闭文件
注意:可以只打开和关闭文件,不尽兴任何读写。
open()打开函数
在Python中,使用open函数,可以打开一个已经存在的文件,或者创建一个新文件,语法如下
open(name, mode, encoding)
name:是要打开的目标文件名的字符串(可以包含文件所在的具体路径)。
mode:设置打开文件的模式(访问模式),制度、写入、追加等。
encoding:编码格式(推荐使用UTF-8)。
示例代码:
f = open('python.txt', 'r', encoding="UTF-8") # encoding的顺序不是第三位,所以不能用位置参数,用关键字参数直接指定。
注意:此时的'r'是'open'函数的文件对象,对象是Python中一种特殊的数据类型,拥有属性和方法,可以使用对象.属性或对象.方法对其进行访问,后续面向对象课程会给大家进行详细的介绍。
mode常用的三种基础访问模式
模式 | 描述 |
r | 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 |
w | 打开一个文件只用于写入。如果该文件已存在则打开文件,并从头开始编辑,原有内容会被删除。如果该文件不存在,则会创建新文件。 |
a | 打开一个文件用于追加,如果该文件已存在,新的内容将会被写入到已有内容之后。如果该文件不存在,则会创建新文件进行写入。 |
读操作相关方法
read()方法
文件对象.read(num)
num表示要从文件中读取的数据的长度(单位是字节),如果没有传入num,那么就表示读取文件中所有的数据。
f = open('/Users/zhanghongxin/Desktop/python-test1.py', 'r', encoding='UTF-8')
print(f"f的类型是:{type(f)}")
print(f"读取10个字节的结果是:{f.read(10)}")
print(f"读取全部内容的结果是:{f.read()}")
f.close()
输出结果:
f的类型是:
读取10个字节的结果是:hello worl
读取全部内容的结果是:d
abcdefg
aaaa
bbbb
cccc
从以上结果可以看出,当代码中出现2个read时,第2个read读取的结果是从第1个read读取之后的内容开始输出。当代码中出现N个read的结果依次类推。
readlines()方法
readlines可以按照行的方式把整个文件中的内容进行一次性读取,并且返回的是一个列表,其中每一行的数据为一个元素。
f = open('python.txt')
content = f.readlines()
# ['hello world\n', 'abcdefg\n', 'aaaa\n', 'bbbb\n', 'cccc']
print(content)
# 关闭文件
f.close()
f = open('/Users/zhanghongxin/Desktop/python-test1.py', 'r', encoding='UTF-8')
lines = f.readlines()
print(f"lines的类型是:{type(lines)}")
print(f"lines对象的内容是:{lines}")
f.close()
输出结果:
lines的类型是:
lines对象的内容是:['hello world\n', 'abcdefg\n', 'aaaa\n', 'bbbb\n', 'cccc']
readline()方法
一次读取一行内容。
格式一:
f = open('/Users/zhanghongxin/Desktop/python-test1.py', 'r', encoding='UTF-8')
content = f.readline()
print(f"content取出的第一行内容是:{content}")
content = f.readline()
print(f"content取出的第二行内容是:{content}")
f.close()
输出结果:
content取出的第一行内容是:hello world
content取出的第二行内容是:abcdefg
格式二:
f = open('/Users/zhanghongxin/Desktop/python-test1.py', 'r', encoding='UTF-8')
line1 = f.readline()
line2 = f.readline()
print(f"取出的第一行内容是:{line1}")
print(f"取出的第二行内容是:{line2}")
f.close()
输出结果:
取出的第一行内容是:hello world
取出的第二行内容是:abcdefg
读操作相关方法
for循环
for line in open('/Users/zhanghongxin/Desktop/python-test1.py', 'r', encoding='UTF-8'):
print(line)
输出结果:
hello world
abcdefg
aaaa
bbbb
cccc
每一个line临时变量,就记录了文件的一行数据。
close()关闭文件对象
f = open('/Users/zhanghongxin/Desktop/python-test1.py', 'r', encoding='UTF-8')
f.close()
最后通过close,关闭文件对象,也就是关闭对文件的占用。如果不调用close,同时程序没有停止运行,那么这个文件将一直被Python程序占用。
with open 语法
with open('/Users/zhanghongxin/Desktop/python-test1.py', 'r', encoding='UTF-8') as f:
for line in f:
print(f"每一行的内容是:{line}")
time.sleep(500000)
输出结果:
每一行的内容是:hello world
每一行的内容是:abcdefg
每一行的内容是:aaaa
每一行的内容是:bbbb
每一行的内容是:cccc
通过在with open的语句块中对文件进行操作,可以在操作完成后自动关闭close文件,避免遗忘掉close方法。
操作汇总
操作 | 功能 |
文件对象 = open(file, mode, encoding) | 打开文件获得文件对象 |
文件对戏那个.read(num) | 读取指定长度字节 不指定num读取文件全部 |
文件对象.readline() | 读取一行 |
文件对象.readlines() | 读取全部行,得到列表 |
for line in 文件对象 | for循环文件行,一次循环得到一行数据 |
文件对象.close() | 关闭文件对象 |
with open() as f: | 通过with open语法打开文件,可以自动关闭 |
总结
1、操作文件需要通过open函数打开文件得到文件对象。
2、文件对象有如下读取方法:
- read()
- readline()
- readlines()
- for line in 文件对象
3、文件读取完成后,需要使用文件对象.close()方法关闭文件对象,否则文件会被一直占用。
课后练习:单词计数
通过windows的文本编辑器软件,将如下内容,复制并保存到:word.txt,文件可以存储在任意位置:
itcainiao itcast python
itcainiao python itcast
beijing shanghai itcainiao
shenzhen guangzhou itcainiao
jinan bigdata itcainiao
通过文件读取操作,读取此文件,统计itcainiao单词出现的次数。
# 方式一,读取全部内容,通过字符串count方法统计itcainiao单词数量
"""
统计itcainiao单词出现的次数
"""
f = open("/Applications/软件/pyCharm/存储/python-learn/Python-第五章练习/word.txt", "r", encoding="UTF-8")
content = f.read()
count = content.count("itcainiao")
print(f"itcainiao在文件中出现了{count}次。")
f.close()
# 方法二,一行一行读取
"""
统计itcainiao单词出现的次数
"""
f = open("/Applications/软件/pyCharm/存储/python-learn/Python-第五章练习/word.txt", "r", encoding="UTF-8")
# 使用count变量来统计itcainiao单词数量
count = 0
for line in f:
# 使用字符串的strip操作,移除首尾的空格和换行符
line1 = line.strip()
# 使用字符串的split操作,按照给定字符串,对字符串进行分隔
words = line1.split(" ")
for i in words:
if i == "itcainiao":
count += 1
print(f"itcainiao在文件中出现了{count}次。")
f.close()
文件的写入
写操作快速入门
#1、打开文件
f= open('python.txt', 'w')
#2、文件写入
f.write('hello world')
#3、内容刷新
f.flush()
注意:
1、直接调用write,内容并未真正写入文件,而是会积攒在程序的内存中,称之为缓冲区。
2、当调用flush的时候,内容会真正写入文件。
3、这样做是避免频繁的操作硬盘,导致效率下降(攒一堆,一次性写磁盘)。
实验
1、以写的方式打开一个不存在的文件,使用write写入数据,flush将write写入内存的数据写入到的硬盘中:
"""
文件的写入练习
"""
# 打开一个不存在的文件,r,w,a
f = open("/Users/zhanghongxin/Desktop/abc.txt", "w", encoding="UTF-8")
# write写入,将数据写入到内存中
f.write("Hello World! \n滴滴滴")
# flush刷新,将内存中积攒的数据,写入到硬盘
f.flush()
# close关闭文件
f.close()
可以到open打开文件的路径下看看是否有新增测试文件,并打开文件看下是否是代码中写入的数据。
2、以写的方式打开一个已存在的文件,使用write写入数据,并用flush将数据写入到硬盘中:
"""
文件的写入练习
"""
# 打开一个不存在的文件,r,w,a
f = open("/Users/zhanghongxin/Desktop/abc.txt", "w", encoding="UTF-8")
# write写入,将数据写入到内存中
f.write("你好!欢迎来到Python世界。\n请交出全部零食,否则罚款10元。")
# flush刷新,将内存中积攒的数据,写入到硬盘
f.flush()
# close关闭文件
f.close()
可以到open打开文件的路径下看看测试文件内容,文件内容已被清空并重新写入了代码中的"你好!欢迎来到Python世界。\n请交出全部零食,否则罚款10元。"。
总结
1. 写入文件使用open函数的"w"模式进行写入。
2. 写入的方法有:
wirte(),写入内容。
flush(),刷新内容到硬盘中。
3. 注意事项: w模式,文件不存在,会创建新文件。 w模式,文件存在,会清空原有内容。 close()方法,带有flush()方法的功能。
文件的追加
追加写入操作快速入门
案例演示:
#1. 打开文件,通过a模式打开即可
f = open('python.txt', 'a')
# 2.文件写入
f.write('hello world')
# 3. 内容刷新
f.flush()
注意:
a模式,文件不存在会创建文件
a模式,文件存在会在最后,追加写入文件
总结
1、追加写入文件使用open函数的"a"模式进行写入
2、追加写入的方法有(和w模式一致):
wirte(),写入内容
flush(),刷新内容到硬盘中
3、注意事项:
a模式,文件不存在,会创建新文件
a模式,文件存在,会在原有内容后面继续写入
可以使用”\n”来写出换行符
文件操作综合案例
需求分析
需求:有一份账单文件,记录了消费收入的具体记录,内容如下:
name,date,money,type,remarks
周杰轮,2022-01-01,100000,消费,正式
周杰轮,2022-01-02,300000,收入,正式
周杰轮,2022-01-03,100000,消费,测试
林俊节,2022-01-01,300000,收入,正式
林俊节,2022-01-02,100000,消费,测试
林俊节,2022-01-03,100000,消费,正式
林俊节,2022-01-04,100000,消费,测试
林俊节,2022-01-05,500000,收入,正式
张学油,2022-01-01,100000,消费,正式
张学油,2022-01-02,500000,收入,正式
张学油,2022-01-03,900000,收入,测试
王力鸿,2022-01-01,500000,消费,正式
王力鸿,2022-01-02,300000,消费,测试
王力鸿,2022-01-03,950000,收入,正式
刘德滑,2022-01-01,300000,消费,测试
刘德滑,2022-01-02,100000,消费,正式
刘德滑,2022-01-03,300000,消费,正式
统计出不含测试的账单。
我们现在要做的就是:
1、读取文件
2、将文件写出到bifl.txt.bak文件作为备份
3、同时,将文件内标记为测试的数据行丢弃
实现思路:
1、open和r模式打开一个文件对象,并读取文件
2、open和w模式打开另一个文件对象,用于文件写出
3、for循环内容,判断是否是测试不是测试就write写出,是测试就continue跳过
4、将2个文件对象均close()
"""
取出账单中不含"测试"的数据,并写入新的文件中
"""
# 打开账单文件,读取账单信息
fr = open("/Applications/软件/pyCharm/存储/python-learn/test/bifl.txt", "r", encoding="UTF-8")
# 使用w模式,打开一个新文件
fw = open("/Applications/软件/pyCharm/存储/python-learn/test/bifl-bak.txt", "w", encoding="UTF-8")
# for循环读取数据
for line in fr:
# 使用字符串strip()去掉每行开头结尾的空格和换行符
line1 = line.strip()
# 使用字符串split(",")以逗号为分隔符,取出下标索引为4的字符串,并使用if判断是否是需要得到的数据
if line1.split(",")[4] == "测试":
# 如果取出的数据中带有测试,则跳过本次循环
continue
else:
# 如果取出的数据中不带有测试则写入新文件中
fw.write(line1)
# 由于前面对内容进行了strip()的操作,所以要手动的写出换行符
fw.write("\n")
# 关闭文件,调用close()会自动flush()
fr.close()
fw.close()
得到新文件的内容:
name,date,money,type,remarks
周杰轮,2022-01-01,100000,消费,正式
周杰轮,2022-01-02,300000,收入,正式
林俊节,2022-01-01,300000,收入,正式
林俊节,2022-01-03,100000,消费,正式
林俊节,2022-01-05,500000,收入,正式
张学油,2022-01-01,100000,消费,正式
张学油,2022-01-02,500000,收入,正式
王力鸿,2022-01-01,500000,消费,正式
王力鸿,2022-01-03,950000,收入,正式
刘德滑,2022-01-02,100000,消费,正式
刘德滑,2022-01-03,300000,消费,正式
标签:文件,01,Python,写入,笔记,2022,close,open From: https://blog.51cto.com/zhanghongxin/7474486