Jupyter对于数据预处理的重要功能是支持用逐行编写和运行代码,实时查看结果。
Jupyter 是一个开源的交互式计算环境,它允许用户以网页的形式编写和运行代码,以及创建和共享文档,这些文档可以包含实时代码、方程、可视化和解释性文本。Jupyter 的主要组件包括:
1. Jupyter Notebook:一个交互式 Web 应用程序,允许用户创建和共享包含代码、方程、可视化和叙述文本的文档。这些文档被称为 "notebooks"。
2. JupyterLab:是 Jupyter Notebook 的下一代界面,提供了更丰富的用户界面和更强大的功能,支持多文档工作,以及对扩展插件的支持。
3. JupyterHub:一个多用户服务,允许多个用户同时使用 Jupyter Notebook,适用于教育和研究环境。
4. IPython:一个强大的 Python 解释器,支持交互式 Python 编程,也是 Jupyter Notebook 的核心组件之一。
Dataframe 是一种在数据分析和数据处理中常用的数据结构,特别是在使用 Python 的数据分析库 Pandas 时。Dataframe 提供了一种灵活、高效的方式来操作和分析表格数据。Dataframe 是二维的,可以想象成一个 Excel 电子表格或 SQL 数据库表,有行和列。
接下来将介绍各种方便处理Dataframe的函数。
一:创建DataFrame
pd.read_csv('file.csv')
: 从CSV文件读取数据到DataFrame。pd.read_excel('file.xlsx')
: 从Excel文件读取数据到DataFrame。pd.read_sql(query, connection)
: 从SQL数据库读取数据到DataFrame。
还可以创建数据形成DataFrame:
import pandas as pd
# 示例数据
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']
}
# 使用数据创建DataFrame
df = pd.DataFrame(data)
df
结果如下:
二:查看数据
df.head()
: 查看DataFrame的前几行。df.tail()
: 查看DataFrame的最后几行。df.info()
: 查看DataFrame的信息。df.describe()
: 显示DataFrame的统计摘要。
只有df则展示前几行和最后几行,当数据较多时会省略中间行并显示总行数和总列数。
在 Pandas 库中,df.info()
和 df.describe()
是两个非常有用的函数,它们提供了 DataFrame 的不同信息摘要。下面是对它们的详细介绍:
df.info()
df.info()
函数用于快速查看 DataFrame 的概览信息。当你对一个 DataFrame 调用 info()
方法时,它会显示以下内容:
- 数据类型:DataFrame 中每列的数据类型。
- 非空值:每列的非空值数量。
- 内存使用情况:DataFrame 所占用的内存量。
df.info()
结果如下:
df.describe()
df.describe()
函数用于生成 DataFrame 的统计摘要,它提供了数值型列的描述性统计信息。当你对一个 DataFrame 调用 describe()
方法时,它会显示以下内容:
- 计数(Count):每列的非空值数量。
- 平均值(Mean):数值列的平均值。
- 标准差(Std):数值列的标准差,表示数据的离散程度。
- 最小值(Min):数值列的最小值。
- 25%分位数(25%):数值列的第一四分位数,即所有值中最小的25%。
- 50%分位数(50%)或中位数(Median):数值列的中位数。
- 75%分位数(75%):数值列的第三四分位数,即所有值中最大的25%。
- 最大值(Max):数值列的最大值。
describe()
默认只对数值型列进行统计,但你也可以通过设置 include
参数为 'all'
来包括非数值型列的计数和频率。
df.describe()
结果如下:
三:选择与筛选数据
在 Pandas 中选择行或列的方法非常多样,下面是一些常用的选择行和列的方法:
选择列的方法
1. 通过列名:
使用列名来选择单个列:
column_a = df['column_name']
2. 通过列索引:
使用列的位置索引来选择列(从0开始计数):
first_column = df.iloc[:, 0] # 选择第一列
3. 选择多个列:
通过列名的列表来选择多个列:
columns = df[['column_name1', 'column_name2']]
选择行的方法
1. 通过行标签:
使用 `.loc` 通过行标签来选择行:
row = df.loc[row_label]
2. 通过行的布尔条件:
使用布尔索引选择满足条件的行:
filtered_rows = df[df['column_name'] > value]
或者使用:
df.query('column > value')
使用查询字符串筛选数据。
3. 通过行的位置:
使用 `.iloc` 通过行的位置索引来选择行:
first_row = df.iloc[0] # 选择第一行
4. 选择多个特定的行:
使用行标签的列表来选择多行:
specific_rows = df.loc[row_labels_list]
5. 选择行的范围:
使用行标签的范围来选择行:
rows_range = df.loc[start_row_label:end_row_label]
这些方法可以单独使用,也可以组合使用来选择 DataFrame 中的行和列。通过这些方法,你可以灵活地对数据进行切片、过滤和操作。
四:排序数据
df.sort_values(by='column')
: 根据列值排序。df.sort_index()
: 根据索引排序。
五:数据清理
df.drop('column', axis=1)
: 删除列。df.drop_duplicates()
: 删除重复行。df.fillna(value)
: 填充缺失值。
六:数据转换
df.rename(columns={'old_name': 'new_name'})
: 重命名列。df.assign(new_column=value)
: 添加新列。df.apply(function)
: 对DataFrame中的每个元素应用函数。
七:数据聚合
在Pandas中,groupby
和 agg
是两个非常强大的函数,它们允许你对数据集进行分组和聚合操作。下面是对这两个函数的示例和解释:
df.groupby('column').sum()
groupby
函数用于根据一个或多个键将数据分组。sum
是一个聚合函数,用于计算每个组的总和。当你使用 groupby
后跟 sum
,你可以计算每个组在指定列上的总和。
示例:
假设我们有一个DataFrame df,其中包含有关销售的数据,包括日期、产品和销售额。
import pandas as pd
# 创建示例DataFrame
data = {
'date': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02'],
'product': ['Apple', 'Banana', 'Apple', 'Cherry'],
'sales': [10, 15, 20, 30]
}
df = pd.DataFrame(data)
# 按产品分组并计算每组的销售额总和
grouped_sum = df.groupby('product').sales.sum()
print(grouped_sum)
输出将是每个产品的总销售额。结果如下:
df.agg({'column': 'function'})
agg
函数(或 aggregate
)允许你对DataFrame的列应用一个或多个聚合函数。你可以为不同的列指定不同的聚合函数。
示例:
继续使用上面创建的 df
DataFrame,我们可以使用 agg
来对销售额应用不同的聚合函数。
# 对销售额使用不同的聚合函数:总和、平均值和最大值
aggregated_data = df.agg({
'sales': ['sum', 'mean', 'max']
})
print(aggregated_data)
这将输出一个DataFrame,其中包含销售额的总和、平均值和最大值。结果如下:
两个聚合函数的结合示例
假设我们想要对不同的产品按日期分组,并计算每个组的销售额总和和平均值。
# 对产品和日期进行分组,并计算每个组的销售额总和和平均值
grouped_agg = df.groupby(['product', 'date']).agg({
'sales': ['sum', 'mean']
})
print(grouped_agg)
这将输出一个多层索引的DataFrame,显示每个产品在每个日期的销售额总和和平均值。结果如下:
通过这些示例,你可以看到 groupby
和 agg
如何一起使用来执行复杂的数据聚合任务,这对于数据分析和数据科学非常有用。
八:数据合并
pd.concat([df1, df2])
: 沿着一条轴将多个DataFrame对象堆叠到一起。pd.merge(df1, df2, on='column')
: 根据一个或多个键将不同DataFrame中的行连接起来。
这两个函数是Pandas中用于数据合并和连接的基本工具。下面是使用 `pd.concat` 和 `pd.merge` 的Python示例。
pd.concat([df1, df2])
`pd.concat` 用于将多个DataFrame沿着一条轴堆叠在一起。默认情况下,它是沿着行(axis=0)进行堆叠,但你也可以选择沿着列堆叠(axis=1)。
示例:
import pandas as pd
# 创建两个DataFrame
df1 = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6]
})
df2 = pd.DataFrame({
'A': [7, 8, 9],
'B': [10, 11, 12]
})
# 沿着行堆叠这两个DataFrame
result_concat = pd.concat([df1, df2])
result_concat
输出将是两个DataFrame垂直堆叠的结果。结果如下:
pd.merge(df1, df2, on='column')
`pd.merge` 用于根据一个或多个键将不同DataFrame中的行连接起来。这类似于SQL中的JOIN操作。你可以指定不同的连接方式,如内连接、外连接等。
示例:
# 创建两个DataFrame,它们有一个共同的列'key'
df1 = pd.DataFrame({
'key': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3']
})
df2 = pd.DataFrame({
'key': ['K0', 'K1', 'K2', 'K3'],
'B': ['B0', 'B1', 'B2', 'B3']
})
# 根据'key'列将df1和df2进行内连接
result_merge = pd.merge(df1, df2, on='key')
result_merge
输出将是两个DataFrame根据'key'列匹配的行合并的结果。结果如下:
更复杂的示例:
假设我们有不同的连接条件和连接方式。
# 创建第三个DataFrame,它的'key'列有不同的值
df3 = pd.DataFrame({
'key': ['K0', 'K1', 'K4', 'K5'],
'C': ['C0', 'C1', 'C4', 'C5']
})
df1 = pd.DataFrame({
'key': ['K0', 'K1', 'K2', 'K3'],
'A': ['A0', 'A1', 'A2', 'A3']
})
# 执行左连接,以df1为准,即使df2和df3中没有匹配的'key'
result_merge_left = pd.merge(df1, df3, on='key', how='left')
result_merge_left
这将输出一个包含df1所有行的DataFrame,如果df3中有匹配的'key',则包括来自df3的列,否则相应的列将包含NaN。结果如下:
`pd.concat` 和 `pd.merge` 是处理Pandas DataFrame时不可或缺的工具,它们允许你以多种方式合并和连接数据集。
九:数据输出
df.to_csv('file.csv')
: 将DataFrame输出到CSV文件。df.to_excel('file.xlsx')
: 将DataFrame输出到Excel文件。df.to_sql('table_name', connection)
: 将DataFrame输出到SQL数据库。
这些函数是处理DataFrame时最常用的,但Pandas库提供了更多高级功能和细节控制,可以根据具体需求进行探索。
点下关注,分下更多有关AI,数据分析和量化金融的实用教程和实战项目。
标签:常用,key,Python,df1,column,DataFrame,df,pd,预处理 From: https://blog.csdn.net/2301_80651329/article/details/141407777