CSV文件介绍
CSV 全称逗号分隔值文件是一种简单、通用的文件格式,被广泛的应用于应用程序(数据库、电子表格等)数据的导入和导出以及异构系统之间的数据交换。因为CSV是纯文本文件,不管是什么操作系统和编程语言都是可以处理纯文本的,而且很多编程语言中都提供了对读写CSV文件的支持,因此CSV格式在数据处理和数据科学中被广泛应用。
CSV文件有以下特点:
- 纯文本,使用某种字符集(如ASCII、Unicode、GB2312)等);
- 由一条条的记录组成(典型的是每行一条记录);
- 每条记录被分隔符(如逗号、分号、制表符等)分隔为字段(列);
- 每条记录都有同样的字段序列。
CSV文件可以使用文本编辑器或类似于Excel电子表格这类工具打开和编辑,很多数据库系统都支持将数据导出到CSV文件中,当然也支持从CSV文件中读入数据保存到数据库中
将数据写入CSV文件
使用Python标准库中的csv
模块,该模块的writer
函数会返回一个csvwriter
对象,通过该对象的writerow
或writerows
方法就可以将数据写入到CSV文件中
import csv import random with open('scores.csv', 'w') as file: writer = csv.writer(file) writer.writerow(['姓名', '语文', '数学', '英语']) names = ['关羽', '张飞', '赵云', '马超', '黄忠'] for name in names: scores = [random.randrange(50, 101) for _ in range(3)] # 生成三个50-100之间的随机数,用于表示语文,数学,英语成绩 scores.insert(0, name) # 将姓名插入列表首元素 writer.writerow(scores)
上面的writer
函数,除了传入要写入数据的文件对象外,还可以dialect
参数,它表示CSV文件的方言,默认值是excel
。除此之外,还可以通过delimiter
、quotechar
、quoting
参数来指定分隔符(默认是逗号)、包围值的字符(默认是双引号)以及包围的方式。其中,包围值的字符主要用于当字段中有特殊符号时,通过添加包围值的字符可以避免二义性。
writer = csv.writer(file, delimiter='|', quoting=csv.QUOTE_ALL)
从CSV文件读取数据
通过csv
模块的reader
函数可以创建出csvreader
对象,该对象是一个迭代器,可以通过next
函数或for-in
循环读取到文件中的数据。
import csv with open('scores.csv', 'r') as file: reader = csv.reader(file, delimiter='|') for data_list in reader: print(reader.line_num, end='\t') # reader.line_num csv文件的行数(1 2 3 ......) for elem in data_list: print(elem, end='\t') print()
pandas
pandas第
三方库,它是Python数据分析的神器之一。pandas
中封装了名为read_csv
和to_csv
的函数用来读写CSV文件,其中read_CSV
会将读取到的数据变成一个DataFrame
对象,而DataFrame
就是pandas
库中最重要的类型,它封装了一系列用于数据处理的方法(清洗、转换、聚合等);而to_csv
会将DataFrame
对象中的数据写入CSV文件,完成数据的持久化。read_csv
函数和to_csv
函数远远比原生的csvreader
和csvwriter
强大。
标签:文件,csv,python,读写,writer,scores,reader,CSV From: https://www.cnblogs.com/ashuai123/p/17402646.html