首页 > 编程语言 >Python数据分析,批量合并表格

Python数据分析,批量合并表格

时间:2022-11-10 10:06:31浏览次数:41  
标签:数据分析 批量 表格 Python 文件夹 path csv os

Python数据分析,批量合并表格_数据

Python数据分析,批量合并表格_文件名_02

日常在处理数据时,数据表格常常以固定的格式,这些表格都具有相同的列名,通过对数据表进行整合,可以极大的提高我们的工作效率。

本节使用两种方法对于表格批量处理,一种是常规的菜单式法,另一种是写代码的方法,通过写代码的方式批量合并表格,这样的方法简单高效,合并数据表后,可以进行下一步的数据分析。


一、菜单式法


这种方法适用于小的数据量,数据量大的时候,打开一个EXCEL表格就已经很费时间了,针对小的数据量的合并,比如本文的data文件夹下是9月份一个月的数据,可以新建一个EXCEL表格,点击数据>获取数据>自文件>从文件夹,点击组和,即可对于数据表进行批量合并。

Python数据分析,批量合并表格_数据分析_03

Python数据分析,批量合并表格_数据分析_04

Python数据分析,批量合并表格_数据_05


二、python批量合并表格


另一种方法是写代码的方式,适用于数据量比较大的批量数据,借助Python中的两个标准库pandas和os库,下面先了解一下这两个库的作用。

Pandas

  • pandas是python的一个数据分析包
  • pandas是基于NumPy 解决数据分析任务的一种工具
  • pandas 纳入了大量库和一些标准的数据模型
  • pandas提供了高效地操作大型数据集所需的工具

Os库

  • os库提供通用的、基本的操作系统交互功能
  • os库包含路径操作、进程管理、环境参数等处理函数

下面实际运用代码进行批量处理表格数据。

第一步、导入批量处理数据所需的Python标准库。

# 导入库
import pandas as pd
import os

第二步、设置待读取文件夹、待保存的文件夹以及待保存的表格名。

# 待读取批量csv的文件夹
read_path = 'C:\\Users\\shangtianqiang\\Desktop\\data'
# 待保存的合并后的csv的文件夹,在路径自己建立一个data_merge文件夹
save_path = 'C:\\Users\\shangtianqiang\\Desktop\\data_merge'
# 待保存的合并后的表格名
csvsave_name = 'hebing.csv'

第三步、借助os库修改当前工作目录。

#修改当前工作目录
os.chdir(read_path)

第四步、将该文件夹下的所有文件名存入一个列表。

#将该文件夹下的所有文件名存入一个列表
file_list = os.listdir()

第五步、读取第一个CSV文件并包含表头,注意数据的编码方式。

#读取第一个CSV文件并包含表头
df = pd.read_csv(read_path +'\\'+ file_list[0],encoding = 'gbk') #编码默认UTF-8,若乱码自行更改为gbk

第六步、将读取的第一个CSV文件写入合并后的文件保存。

#将读取的第一个CSV文件写入合并后的文件保存
df.to_csv(save_path+'\\'+ save_name,encoding="utf_8_sig",index=False)

第七步、循环遍历列表中每一个表格的文件名,并且逐个追加到合并后的文件夹内,这里已经导入了第一个表格的数据,所以,这里FileStart=1,而不是FileStart=0。


#循环遍历列表中各个CSV文件名,并追加到合并后的文件
FileStart = 1
FileEnd = len(file_list)
for i in range(FileStart,FileEnd):
df = pd.read_csv(read_path + '\\'+ file_list[i],encoding = 'gbk') # 编码默认UTF-8,若乱码自行更改为gbk
df.to_csv(save_path+'\\'+ save_name,encoding="utf_8_sig",index=False, header=False, mode='a+')

这里逐一演示代码的运行,可以调试完毕后,将代码封装在一起,针对大批量的数据,这个方法既快捷,又高效。

Python数据分析,批量合并表格_数据分析_06

标签:数据分析,批量,表格,Python,文件夹,path,csv,os
From: https://blog.51cto.com/u_15828536/5839651

相关文章

  • EXCEL数据分析,用户过程转化漏斗图制作
    漏斗图漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策。漏斗图用梯形面积表......
  • Python自然语言处理,词云图生成
    自然语言处理本节介绍如何使用Python中的库,生成词云图,涉及自然语言处理的相关问题,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之......
  • Python也能绘制奥运五环
    啊~~~五环,你比四环多一环啊~~~五环,你比六环少一环每当想起小岳岳的歌声,总是充满欢快的气氛,本节给大家介绍如何使用Python绘制奥运五环,这里借助Python中的turtle库,turtle英译为海龟......
  • R数据分析,模型分析与检验
    R语言最重要的功能就是用于做模型,包含有大量的函数包,调用R函数包即可做模型检验与分析,例如常见的相关分析、回归分析、假设检验等等,除了做数据分析,R语言还可以做经典的数据......
  • R数据分析,数据预处理
    上一节讲到R数据清洗内容,主要包括缺失值处理、特殊字符处理、大小写转换、数据格式转化、重复值处理、数值替换,本节在R数据清洗的内容上继续学习R数据预处理,内容包括数据合......
  • R数据分析,数据清洗
    数据获取后不能直接对数据进行分析,“脏数据”会直接影响最终的数据结论,需要对数据进行初步的处理,本文主要讲解数据获取后数据清洗内容,主要包括缺失值处理、特殊字符处理、大......
  • R数据分析,数据概览
    对于统计学专业的学生,对于R软件的使用并不陌生,堪称数理统计软件的标配,R软件也可以做数据处理和数据分析,虽说职场工作对于R软件使用不多,但是R软件绝对是科研人数据分析的最爱......
  • SQL数据分析,多表拼接
    在日常数据查询时,绝大多数情况是将表格关联起来进行查询的,而不仅仅是对一张表格的数据进行查询,在之前的例子中,学生表用于存储学生信息、课程表用于存储课程信息、成绩表用于......
  • 基于TensorFlow和Python的机器学习(笔记3)
    基于TensorFlow和Python的机器学习(笔记3)          embedding的原理是使用矩阵乘法来进行降维,从而达到节约存储空间的目的。word2vector工作流程图......
  • Python下使用argparse模块的脚本参数配置
    python的一个用于命令行参数解析的模块,其专业解释已经有很多了,可以去详查,不做赘述,仅谈谈自己的一些理解。为什么要用argparse模块来为代码导入参数或者文件路径呢?如果是一......