首页 > 其他分享 >Pandas数据分析与处理

Pandas数据分析与处理

时间:2024-07-22 09:40:32浏览次数:16  
标签:数据分析 City pd 处理 df 二维 数组 print Pandas

Pandas主要有三种数据结构。
1)Series,带标签的一维数组。
2)Dataframe,带标签且大小可变的二维表格结构。
3)Panel,带标签且大小可变的三维数组。
本次主要总结的是pandas用于操作Dataframe的相关操作。
一、导入扩展库numpy和pandas,按照Python社区的惯例,在导入扩展库numpy时会起一个别名np,在导入扩展库pandas时会起一个别名pd。
Import numpy as np
Import pandas as pd
二、创建Dataframe对象
pd.Dataframe(数据,索引,列名)
1)使用numpy的二维数组生成pandas的二维数组
如:

2)使用Python字典生成pandas的二维数组


四、查看二维数组数据的列名、索引和值
df.index #查看索引
df.columns #查看列名
df.values #查看值
应用于第二个Datafame对象,得:

五、查看二维数组的基本信息和统计信息
df.info() #查看二维数组的基本信息
df.describe() #查看二维数组的统计信息
应用于第一个Dataframe对象,得:


六、对二维数组进行排序操作

七、二维数组数据的选择与访问

八、二维数组数据的修改
1.可以通过指定行索引和列名来修改单个单元格的值。
如:修改索引为2的行的'Age'列的值
df.at[2, 'Age'] = 22
print(df)
2. 可以直接通过列名来访问整列,并对其进行修改。
如:将所有'City'列的值取反
df['City'] = -df['City']
print(df)
4. 修改整行的值
虽然Pandas没有直接修改整行数据的内置方法,但你可以通过选择整行并分配一个新序列来实现。
一)修改索引为3的行的数据
new_row = pd.Series(['Charlie', 25, 'Madrid'], index=['Name', 'Age', 'City'])
df.loc[3] = new_row
print(df)
4. 使用条件修改数据

将所有年龄大于20的'City'列的值更改为'Adult City'

df.loc[df['Age'] > 20, 'City'] = 'Adult City'
print(df)
5. 添加或删除列
添加列:可以直接赋值一个新的列名。
删除列:使用drop方法,并指定axis=1(表示列)。

添加新列

df['Country'] = 'USA'

删除列

df = df.drop('Country', axis=1)
print(df)
若要删除源文件中的数据,df.drop(columns=[‘column1’,’column2’],inplace=True)
补充:删除行
它由第一个参数labels和第二个参数axis指定。行指定axis= 0。
print(df.drop('Charlie', axis=0))
由于默认值为axis = 0,因此可以省略axis。
print(df.drop('Charlie'))
九、读写文件
保存数据到excel文件中:df.to_excel(‘d:\test.xlsx’,sheet_name=’dfg’)
载入数据:
Df=pd.read_excel(‘d:\test.xlsx’,’dfg’,index_col=None,na_values=[‘NA’])
保存数据到csv文件中:df.to_csv('train_chinese.csv') #将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
载入数据:
(1) 使用相对路径载入数据df = pd.read_csv('train.csv')
(2) 使用绝对路径载入数据df = pd.read_csv('D:/pandas作业/train.csv')
十、二维数组的数据预处理
1)缺失值的处理

3)重复值的处理

十、分组计算
groupby 函数是Pandas库中一个非常强大的功能,它允许你根据一个或多个键对数据进行分组,并对每个分组应用聚合函数。这在进行数据分析时非常有用,因为它允许你轻松地计算每个分组的统计信息,如计数、平均值、最大值、最小值、标准差等。
df.groupby(‘A’).sum()
Df.groupby([‘A’,’B’]).mean()
十一、lamada不等式
如 f=lamada x,y,z:x+y+z
十二、频次统计信息
在Python中,value_counts() 方法是Pandas库中Series对象的一个非常有用的方法,它用于计算每个唯一值在Series中出现的次数,并返回一个按出现次数降序排列的Series对象。这对于数据分析和数据清洗过程中快速了解某个字段或变量的分布情况非常有帮助。
使用方法
假设你有一个Pandas的Series对象s,你可以直接调用s.value_counts()来获取每个唯一值及其对应的出现次数。
import pandas as pd
data = ['apple', 'banana', 'apple', 'orange', 'banana', 'banana']
s = pd.Series(data)
vc = s.value_counts()
print(vc)
输出将会是:
banana 3
apple 2
orange 1
dtype: int64
value_counts() 也可以用于DataFrame的某一列,但返回的是Series对象。

标签:数据分析,City,pd,处理,df,二维,数组,print,Pandas
From: https://www.cnblogs.com/wujinshanzhen/p/18315445

相关文章

  • 在 pandas 中用 NaN 替换空白值(空白)
    我想找到Pandas数据框中包含空格(任意数量)的所有值,并将这些值替换为NaN。有什么想法可以改进吗?基本上我想把这个:ABC2000-01-01-0.532681foo02000-01-021.490752bar12000-01-03-1.387326foo22000-01-040.8147......
  • 如何将 geopandas 数据框与底图重叠?
    我有一个shapefile,我将其读取为geopandas数据框importgeopandasasgpdgdf=gpd.read_file('myfile.shp')gdf.plot()其中gdf.crs<ProjectedCRS:ESRI:54009>Name:World_MollweideAxisInfo[cartesian]:-E[east]:Easting(metre)-......
  • Python Pandas:如何解析没有行结尾的 CSV
    如何解析没有行结尾的CSV文件?示例数据sep=;Id;Date;1;1980-02-29;2;1980-03-10;3;;可以使用lineterminator参数指定行终止符来解析没有行尾的CSV文件。在这种情况下,你可以将lineterminator设置为一个空字符串('')。以下是使用......
  • AI - 数据处理 - fit、transform、fit_transform 区别
    总结fit_transform=fit+transform的组合,整个过程既包括了训练又包含了转换。fit_transform对数据先拟合fit,找到数据的整体指标,如均值、方差、最大值最小值等,然后对数据集进行转换transform,从而实现数据的标准化、归一化操作。如果要想在fit_transform的过程中查看数......
  • 记一次 Windows 锁屏广告处理步骤
    说实在的,国内流氓软件真的狗!!!中招情况电脑放置一会儿不动,就会给你弹传奇广告这是之前的情况最新的情况是:广告主题不定,昨天看到的是莫名主题(图片好像肉类)/健康主题(肺结节相关)处理方法找出病根这个用火绒弹窗拦截貌似不生效,所以只能另想它招我们需要Process......
  • 前端快速处理几十万条数据的方式?
    在前端处理大量数据时,可以采用以下几种方式来提高处理速度和性能:数据分页:将数据分成多个页面,并按需加载。只加载当前页面的数据,而不是一次性加载全部数据。这可以减少初始加载时间和内存占用,并提高用户体验。虚拟滚动:对于需要展示大量列表或表格数据的情况,可以使用虚拟滚动......
  • 数据处理
    数据处理:主要利用的库importnumpyasnpimportpandasaspd函数的使用:1.读取:path="路径"c=pd.read_csv(path,sep="")参数sep是数据的分割符号,如果不输入在读取csv文件中将默认为“,”返回的内容是属于pandas库的特殊数据类型DataFrame。在读取过程中,该函数会根据......
  • 激光雷达数据处理
    激光雷达技术以其高精度、高效率的特点,已经成为地表特征获取、地形建模、环境监测等领域的重要工具。掌握激光雷达数据处理技能,不仅可以提升工作效率,还能够有效提高数据的质量和准确性,为决策提供可靠的数据支持。随着激光雷达技术在地理信息系统(GIS)、遥感和测绘领域的广泛应用......
  • OpenVX数据与视频处理信息
    数据表通过在目标上运行以下命令,可以自动生成演示的性能数据:/opt/edgeai-gst-apps/tests#./gen_data_sheet.sh性能测量包括以下内容。1)F应用程序运行的有效帧速率2)总时间:处理每帧所花费的平均时间,包括预处理、推理和后处理时间3)推断时间:推断每帧所花费的平均时间4)CPU加载:......
  • 湖南(市场调研公司)源点咨询 市场研究中11种数据分析技术
    湖南源点市场调研认为,不同的营销问题适合用不同的分析工具。在众多工具中做出选择,调研人员必须了解每种工具的优缺点。接下来将介绍11种可能用到的工具。(1)多元回归分析:分析一个数值型因变量和多个数值型自变量关系的分析方法。使用时必须认真考虑正态性、线性和同方差性......