Pandas处理excel

时间：2023-08-24 17:33:05浏览次数：37

标签：loc 处理 excel DataFrame df pd csv data Pandas

基本使用

pandas是一个用于数据处理和分析的python库，提供了许多数据结构，其中最常用的是DataFrame和Series。

创建 DataFrame：可以使用字典或二维数组来创建 
For example:
	import pandas as pd

	data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
	df = pd.DataFrame(data)

读取和写入文件：
   pandas 支持多种文件格式，如 CSV、Excel 和 SQL 数据库
   可以使用 read_csv、read_excel 等方法来读取文件，使用 to_csv、to_excel 等方法来写入文件
   
   	import pandas as pd
	df = pd.read_csv('data.csv')
	df.to_csv('output.csv')

数据选择和过滤：
	可以使用 loc 和 iloc 方法来选择和过滤数据。loc 方法通过行、列的名称或标签来索引，而 iloc 方法则通过行、列的索引位置来寻找数据
	
	import pandas as pd

	df = pd.read_csv('data.csv')
	data1 = df.loc[0, 'A']
	data2 = df.iloc[0, 0]

数据处理：
	pandas 提供了许多方法来处理数据，如排序、分组和聚合。您可以使用 sort_values、groupby 和 agg 等方法来处理数据
	
	df = pd.read_csv('data.csv')
	df = df.sort_values(by='A')
	grouped = df.groupby('A')
	result = grouped.agg('sum')

read_excel常用参数

- io：文件路径或类似文件的对象。[一般直接写就文件名或路径即可]
- sheet_name：要读取的表格名称或索引，默认为 0，表示读取第一个表格。
- header：指定行数用来作为列名，数据开始行数。如果文件中没有列标题，则应该设置为 None。
- names：指定列名，如果文件中不包含列标题行，应该设置。
- index_col：指定某列作为行索引。
- usecols：返回一个数据子集，该列表中的值必须与文件中的列名相匹配或者是位置索引。
- skiprows：跳过指定行数的数据。
- nrows：读取指定行数的数据。
- na_values：指定哪些值应该被视为缺失值。

to_excel常用参数

- excel_writer：文件路径或类似文件的对象。
- sheet_name：要写入的表格名称，默认为 'Sheet1'。
- na_rep：缺失值的表示方式，默认为 ''。
- float_format：浮点数的格式字符串，例如 '{:.2f}'。
- columns：要写入的列，如果未指定，则写入所有列。
- header：是否写入列名，默认为 True。
- index：是否写入行索引，默认为 True。
- index_label：行索引的列名，如果未指定，则不写入行索引列名。
- startrow：起始行位置，默认为 0。startcol：起始列位置，默认为 0。

loc方法

loc 是 pandas 库中 DataFrame 对象的一个属性，它提供了一种基于标签的索引方法。可以使用 loc 来通过行标签和列标签来选择数据。

基本用法

	df.loc[row_label, column_label]
df 是一个 DataFrame 对象，row_label 是行标签，column_label 是列标签。可以使用逗号分隔的两个参数来指定要选择的行和列。

选择第一行第一列的数据

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=['x', 'y', 'z'])
result = df.loc['x', 'A']   # result是1

选择多行或多列数据  【前两行数据】
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=['x', 'y', 'z'])
result = df.loc[['x', 'y']]

多行和指定列数据  【前两行和两列】
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data, index=['x', 'y', 'z'])
result = df.loc['x':'y', 'A':'B']

标签：loc,处理,excel,DataFrame,df,pd,csv,data,Pandas
From： https://www.cnblogs.com/Hsummer/p/17654723.html

临时导出excel，直接html代码复制进excel里面可以直接变成表格
临时导出excel，直接html代码复制进excel里面可以直接变成表格 p标签和br会导致分成两个单元格可以在外面的标签身上加，或者br上面加 br{ mso-data-placement:same-cell; } 这样子br不会被分成另个，只是同一个单元格换行了开发web系统......
pd.read_csv pandas.errors.ParserError: Error tokenizing data. C error: Expected
df1=pd.read_csv(path1,encoding="utf-8",chunksize=50000,error_bad_lines=False)尽管提示：Warning(fromwarningsmodule):File"D:\Python37\lib\idlelib\run.py",line550exec(code,self.locals)FutureWarning:Theerror_bad_linesargu......
【Python】pandas操作, 取最大值, 最小值, 平均值, 生成空值, 多个 series合并, 替换
1.取最大值,最小值,平均值df.max()df.iloc[:,1:].max()df.min()df.mean()#输出indexvalue2.生成空值,带index的seriespd.Series(index=['1','2','3'],dtype='object')"""1NaN2NaN3NaNdtype:objec......
golang init函数、defer函数、匿名函数、错误处理
1.init每一个源文件都可以包含一个init函数，该函数会在main函数执行前，被Go运行框架调用，也就是说init会在main函数前被调用,当有全局变量跟main函数init函数同时出现的时候执行的顺序是全局函数==》init函数==》main函数packagemainimport"fmt"functest()string{ r......
法研杯生成式文本摘要赛题处理
赛题分析统计信息样本预览建模思路抽取模型抽取模型的思路是先通过规则将原始的生成式语料转化为序列标注式语料。（将文本转换为文本向量）基于深度学习的抽取式摘要，是有监督的文本摘要，可以建模为序列标注任务或句子排序任务。建模为序列标注任务，就是为原文中......
删除Excel表格中第一个字符
函数=MID(A1,2,LEN(A1)-1)示例1：2：......
STATA 导出EXCEL 行数过多原因及应对
stata导出到EXCEL:报错：.exportexcelusing"D:\te\安徽.xlsx",>firstrow(variables)observationsmustbebetween1and1048576r(198);是因为XLSX最大行数限制将文件分成多个导出，分别小于1048576即可keepin1/1048575.exportexcelusing"D:\te\安徽1.xlsx",first......
Spring Boot + Spring Batch 实现批处理任务，保姆级教程！（场景实战）
来源：blog.csdn.net/qq_35387940/article/details/108193473前言概念词就不多说了，我简单地介绍下，springbatch是一个方便使用的较健全的批处理框架。为什么说是方便使用的，因为这是基于spring的一个框架，接入简单、易理解、流程分明。为什么说是较健全的，因为它提供了往......
汇编-movsb和movsw串处理指令
movsb字节传送指令格式：movsb功能：执行movsb指令相当于进行下面几步操作:(1)((es)*16+(di))=((ds)*16+(si))(2) 如果df=0则：(si)=(si)+1 (di)=(di)+1 如果df=1则：(si)=(si)-1 (di)=(di)-1 movsw字传......
浅析三维模型OBJ格式轻量化处理常见问题与处理措施
浅析三维模型OBJ格式轻量化处理常见问题与处理措施在三维模型OBJ格式轻量化处理过程中，可能会遇到一些问题。以下是一些常见问题以及相应的解决方法：1、文件大小过大：OBJ格式的三维模型文件通常包含大量的顶点、面片和纹理信息，导致文件体积较大。这会影响加载和渲染速度。解决......