首页 > 编程语言 >Python数据分析,办公自动化,数据导入和导出

Python数据分析,办公自动化,数据导入和导出

时间:2022-11-10 10:07:54浏览次数:68  
标签:数据分析 xlsx 办公自动化 Python 尚天强 excel Desktop df pd

Python数据分析,办公自动化,数据导入和导出_desktop

Python数据分析,办公自动化,数据导入和导出_desktop_02

写在文章的最前面,Python办公自动化有什么用?使用Python代码脚本取代繁复的手工操作,自动化,流程化处理数据。

本文借助Python中的Pandas库进行数据导入,关于如何学习Pandas,我们可以在其官方文档进行学习,官网的地址如下。

Pandas官网​https://www.pypandas.cn/​

Python数据分析,办公自动化,数据导入和导出_数据_03

下面一起学习,如何使用Python导入.xlsx文件和.csv文件,导入.xlsx文件的参数如下所示,本文讲解我们日常办公所需要的一些参数。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,
usecols=None, squeeze=False,dtype=None,engine=None,
converters=None,true_values=None,false_values=None,skiprows=None,
nrows=None,na_values=None,parse_dates=False,date_parser=None,
thousands=None, comment=None, skipfooter=0, convert_float=True, **kwds)

导入.xlsx文件

使用read_excel命令导入数据,写入路径即可。

#导入数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx")
df.head()

Python数据分析,办公自动化,数据导入和导出_desktop_04

nrows

导入前4行数据。

#导入前4行数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",nrows=4)
df

Python数据分析,办公自动化,数据导入和导出_数据_05

sheet_name

指定导入的sheet表,在首映地点中选择中国首映的sheet表。

#导入具体的sheet数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",sheet_name = "中国首映")
df.head()

Python数据分析,办公自动化,数据导入和导出_数据类型_06

header

指定第一行是否为列名,header=0,表示数据第一行为列名,header=None,表明数据没有列名。

#header为0时,第一行作为列索引
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",header = 0)
df.head()

Python数据分析,办公自动化,数据导入和导出_desktop_07

index_col

指定列作为行索引。

#index_col为1时,第二列作为行索引
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",index_col = 1)
df.head()

Python数据分析,办公自动化,数据导入和导出_数据类型_08

usecols

可以指定读取的列名。

#选择第二列,第六列数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[1,5])
df.head()

这里使用一个小技巧,将带空格的字符串变为列表形式。

'名字 上映时间'.split()
['名字', '上映时间']
#选择特定的列
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =['名字', '上映时间'])
df.head()

Python数据分析,办公自动化,数据导入和导出_desktop_09

这里发现指定具体的列名称时无法选择列,我们使用切片索引选择特定的列。

#选择特定的列
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx")
df=df.loc[:,['名字', '上映时间']]
df.head()

Python数据分析,办公自动化,数据导入和导出_数据_10

skiprows

跳过多少行再读取数据。

#跳过第二行和第四行数据
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",header=0,skiprows=[1,3])
df.head()

Python数据分析,办公自动化,数据导入和导出_数据_11

names

对选取的列重命名。

#对列命名
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[1,5],names=["电影名称","上映日期"])
df.head()

Python数据分析,办公自动化,数据导入和导出_数据类型_12

数据类型转化

types

查看字段的数据类型。

df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx")
df.dtypes

Python数据分析,办公自动化,数据导入和导出_数据_13

dtype

转化数据类型。

#转化数据类型
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",dtype={'投票人数':'int','评分':'int'})
df.dtypes

Python数据分析,办公自动化,数据导入和导出_数据_14

object数据类型转化。

#查看数据类型
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[5])
df.dtypes

Python数据分析,办公自动化,数据导入和导出_数据类型_15

指定解析成日期格式的列。

#转化日期类型
df = pd.read_excel(r"C:\Users\尚天强\Desktop\film_score.xlsx",usecols =[5],parse_dates=[0])
df.dtypes

Python数据分析,办公自动化,数据导入和导出_数据_16

创建一个时间表。

import pandas as pd
from datetime import datetime


a={'日期':[datetime(2021,3,15),datetime(2021,3,15)],'销量':[10,20]}
b={'日期':[datetime(2021,3,16),datetime(2021,3,16)],'销量':[30,40]}


df1=pd.DataFrame(a)
df2=pd.DataFrame(b)

使用datetime_format进行日期格式转化。

with pd.ExcelWriter(r'C:\Users\尚天强\Desktop\learn.xlsx',datetime_format='YYYY-MM-DD') as writer :
df1.to_excel(writer,sheet_name='15日',index=False)
df2.to_excel(writer,sheet_name='16日',index=False)

Python数据分析,办公自动化,数据导入和导出_desktop_17

数据导出

使用to_excel,写入导出的路径,进行数据导出,index=False消行索引。

import pandas as pd
a={'销量':[10,20],'售价':[100,200]}
df=pd.DataFrame(a)


df.to_excel(r'C:\Users\尚天强\Desktop\learn.xlsx',index=False) #取消行索引

Python数据分析,办公自动化,数据导入和导出_数据_18

加入行索引,并使用index.name对其命名。

import pandas as pd


a={'销量':[10,20],'售价':[100,200]}
df=pd.DataFrame(a,index=['A','B']) #加入一个行索引
df.index.name='货号'


df.to_excel(r'C:\Users\尚天强\Desktop\learn.xlsx')

Python数据分析,办公自动化,数据导入和导出_数据_19

float_format

设置浮点型数据的小数位。

na_rep

空值进行填充。

import pandas as pd


a={'销量':[10,20.43],'售价':[100.25,None]}
df=pd.DataFrame(a,index=['A','B']) #加入一个行索引
df.index.name='货号'


df.to_excel(r'C:\Users\尚天强\Desktop\learn.xlsx',sheet_name='第一张表',float_format='%.2f',na_rep='空值')

Python数据分析,办公自动化,数据导入和导出_数据类型_20

导入.csv文件

我们常使用的CSV文件有CSV UTF-8(逗号分隔)和CSV(逗号分隔)这两种。

Python数据分析,办公自动化,数据导入和导出_数据类型_21


编码方式设置

如果导出的文件为gbk编码方式,导入数据的时候用gbk的编码方式。

encoding

指定数据读入的编码方式。

# 如果导出的文件为gbk编码方式,导入数据的时候用gbk 
df = pd.read_csv(r"C:\Users\尚天强\Desktop\score.csv",encoding="gbk",nrows =2)#导入前两行
df

中文路径导入数据

当文件路径或文件名为中文时,如果是CSV UTF-8(逗号分隔)的格式文件,需要把编码格式更改为utf-8-sig,如果是CSV(逗号分隔)的格式文件,需要把编码格式更改为gbk

'''
当文件路径或文件名为中文时,如果是CSV UTF-8(逗号分隔)的格式文件,需要把编码格式更改为utf-8-sig
如果是CSV(逗号分隔)的格式文件,需要把编码格式更改为gbk
'''
df = pd.read_csv(r'C:\Users\尚天强\Desktop\cars_scoreCSV.csv',engine="python",encoding="gbk")
df.head()
'''
当文件路径或文件名为中文时,如果是CSV UTF-8(逗号分隔)的格式文件,需要把编码格式更改为utf-8-sig,
如果是CSV(逗号分隔)的格式文件,需要把编码格式更改为gbk
'''
df = pd.read_csv(r'C:\Users\尚天强\Desktop\cars_scoreUTF-8.csv',engine="python",encoding="utf-8-sig")
df.head()

Python数据分析,办公自动化,数据导入和导出_数据_22

Python数据分析,办公自动化,数据导入和导出_数据类型_23

标签:数据分析,xlsx,办公自动化,Python,尚天强,excel,Desktop,df,pd
From: https://blog.51cto.com/u_15828536/5839645

相关文章

  • Python实战—修改环境变量
    环境管理环境管理是Python使用中的一大好习惯,如果你不想在一遍遍重装Python和系统中折腾循,那么环境管理是学习Python的过程中非常必要的一环。手动创建虚拟环境软件安装完毕......
  • SQL数据分析|春节档电影豆瓣影评数据分析
    今年贺岁档上映了众多电影,其中有喜剧片代表唐探3、你好,李焕英,奇幻冒险片代表刺杀小说家、侍神令,犯罪片人潮汹涌等,众多电影中,我最喜欢看唐探3,因为之前看过唐探1和2系列,再加之......
  • Python实战—巴尔的摩公务员的待遇怎么样?
    本节以美国城市巴尔的摩2016年公务员的工资数据集为例,数据来源于网络,通过数据分组统计,并且可视化,分析其工资情况。数据来源importnumpyasnpimportpandasaspdimportma......
  • Python数据分析,批量合并表格
    日常在处理数据时,数据表格常常以固定的格式,这些表格都具有相同的列名,通过对数据表进行整合,可以极大的提高我们的工作效率。本节使用两种方法对于表格批量处理,一种是常规的菜......
  • EXCEL数据分析,用户过程转化漏斗图制作
    漏斗图漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策。漏斗图用梯形面积表......
  • Python自然语言处理,词云图生成
    自然语言处理本节介绍如何使用Python中的库,生成词云图,涉及自然语言处理的相关问题,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之......
  • Python也能绘制奥运五环
    啊~~~五环,你比四环多一环啊~~~五环,你比六环少一环每当想起小岳岳的歌声,总是充满欢快的气氛,本节给大家介绍如何使用Python绘制奥运五环,这里借助Python中的turtle库,turtle英译为海龟......
  • R数据分析,模型分析与检验
    R语言最重要的功能就是用于做模型,包含有大量的函数包,调用R函数包即可做模型检验与分析,例如常见的相关分析、回归分析、假设检验等等,除了做数据分析,R语言还可以做经典的数据......
  • R数据分析,数据预处理
    上一节讲到R数据清洗内容,主要包括缺失值处理、特殊字符处理、大小写转换、数据格式转化、重复值处理、数值替换,本节在R数据清洗的内容上继续学习R数据预处理,内容包括数据合......
  • R数据分析,数据清洗
    数据获取后不能直接对数据进行分析,“脏数据”会直接影响最终的数据结论,需要对数据进行初步的处理,本文主要讲解数据获取后数据清洗内容,主要包括缺失值处理、特殊字符处理、大......