标签：02 index Python 索引详解 2022 print data pandas

1. pandas介绍

pandas 是用于数据挖掘的Python库

便捷的数据处理能力
独特的数据结构
读取文件方便
封装了matplotlib的画图和numpy的计算

pandas的数据结构

Series
Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。由索引（index）和列组成。

DataFrame

DataFrame 是一个表格型的数据结构，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典。

案例应用

创建一个符合正态分布的10个股票5天的涨跌幅数据，使用pandas中的数据结构 DataFrame() 处理数据

# 导入库
import numpy as np
import pandas as pd

# 创建一个符合正态分布的10个股票5天的涨跌幅数据
stocks = np.random.normal(0, 1, [10, 5])
# 使用pandas中的数据结构 DataFrame() 处理数据
stocks_rise = pd.DataFrame(stocks)
# 设置行索引,获取行数 stocks_rise.shape[0] 进行遍历 列表生成式
index_row = ['股票{}'.format(i+1) for i in range(stocks_rise.shape[0])]
# 设置列索引，日期是一个时间序列，为了简便，使用pd.date_range()生成一组连续的时间序列
# pd.date_range(start,end,periods,freq) start:开始时间, end:结束时间
# periods:时间天数, freq:递进单位，默认1天，'B'默认略过周末
index_col = pd.date_range(start='20220201',periods=stocks_rise.shape[1],freq='B')
# 添加索引，注意数据是ndarray数据 index表示行索引，columns表示列索引
data = pd.DataFrame(stocks, index=index_row, columns=index_col)
print(data)

      2022-02-01  2022-02-02  2022-02-03  2022-02-04  2022-02-07
股票1    -2.054041   -1.170757    0.162393    0.253333   -1.638837
股票2    -1.463734    0.408459    0.530070   -0.925281    1.454630
股票3    -0.511517   -0.827591   -2.076265    0.139486    0.658707
股票4    -1.698789    0.250902   -0.624713    1.378845   -1.672292
股票5     0.683233   -1.083694    0.810567    0.421215    1.375385
股票6    -0.296111   -0.946959    0.836536   -1.179879   -0.397406
股票7     0.017772    0.180210    2.022776    0.436337   -1.555866
股票8     0.638262   -0.790932    1.077822   -1.746631   -0.591360
股票9    -0.681391   -0.613255   -1.849094    0.438304   -0.503742
股票10   -0.243500   -1.733623   -1.137840    0.124976   -0.415727

2. Series

pd.Series( data, index, dtype, name, copy)

参数说明：

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

Series实例

# 通过数组创建Series
s = pd.Series([6, 5, 2], index=['x', 'y', 'z'])
print(s)
x    6
y    5
z    2
# 通过字典创建Series
s = pd.Series({
    'day': 2,
    'month': 2,
    'year': 2022
})
print(s)
day         2
month       2
year     2022
dtype: int64
# 通过索引操作数据
print(s['year'])
2022

3. DataFrame

3.1 DataFrame结构

DataFrame对象既有行索引，又有列索引

行索引：表明不同行，横向索引，叫index，axis=0
列索引：表明不同列，纵向索引，叫columns，axis=1

3.2 DataFrame属性与方法

shape DataFrame的形状
index DataFrame行索引
columns DataFrame列索引
values DataFrame的值
T DataFrame转置
head(n) DataFrame的前n行，默认为前5行
tail(n) DataFrame的后n行，默认为后5行

print(data.shape)  # (10, 5)
print(data.index)
# Index(['股票1', '股票2', '股票3', '股票4', '股票5', '股票6', '股票7', '股票8', '股票9', '股票10'], dtype='object')
print(data.columns)
# DatetimeIndex(['2022-02-01', '2022-02-02', '2022-02-03', '2022-02-04',
#                '2022-02-07'],
#               dtype='datetime64[ns]', freq='B')
print(data.values)
print(data.T)

3.2 DataFrame索引的设置

1 修改行列索引值

必须整体全部修改，不能单独修改某个索引

index_row2 = ['股票_{}'.format(i + 1) for i in range(stocks_rise.shape[0])]
data.index = index_row2
print(data)

2 重设索引

reset_index(drop=False)

设置新的下标索引
drop:默认为False，不删除原来索引

# 重设索引
print(data.reset_index(drop=False))

3 以某列值设为新的索引

set_index(keys,drop=True)

keys:列索引名称或者列索引名称的列表
drop:默认为True，当作新的索引，删除原来索引

# 创建
df = pd.DataFrame({
    'month': [1, 4, 7, 10],
    'year': [2018, 2019, 2020, 2021],
    'sale': [55, 40, 84, 33]
})
print(df)
   month  year  sale
0      1  2018    55
1      4  2019    40
2      7  2020    84
3     10  2021    33
# 以月份设置新的索引
print(df.set_index('month'))
       year  sale
month            
1      2018    55
4      2019    40
7      2020    84
10     2021    33
# 设置多个索引，以年和月份
# 如果设置索引是两个的时候，就是multiIndex
print(df.set_index(['year', 'month']))
            sale
year month      
2018 1        55
2019 4        40
2020 7        84
2021 10       33

4. 基本数据操作

4.1 索引重命名

rename(mapper=None,inplace=False)
- mapper：映射结构，修改columns或index要传入一个映射体，可以是字典、函数
- inplace：默认为False，不改变数据，返回一个新的DataFrame

4.2 通过索引操作数据

1. 直接使用行列索引（先列后行）

先行后列会报错

不支持切片，会报错

stocks = np.random.normal(0, 1, [10, 5])
stocks_rise = pd.DataFrame(stocks)
index_row = ['股票{}'.format(i + 1) for i in range(stocks_rise.shape[0])]
index_col = pd.date_range(start='20220201', periods=stocks_rise.shape[1], freq='B')
data = pd.DataFrame(stocks, index=index_row, columns=index_col)
print(data.head())
     2022-02-01  2022-02-02  2022-02-03  2022-02-04  2022-02-07
股票1    0.663384    1.936687    1.992576    2.009280   -0.723381
股票2   -2.441452    0.081647   -0.738524   -0.620358   -1.930378
股票3    2.026646   -0.324842   -0.478456   -0.840363    1.492842
股票4   -0.188968   -1.180816    0.733197   -0.078608   -1.056264
股票5    1.219254   -1.738242    0.473682    0.288252    3.513113
# 索引先列后行获取数据
print(data['2022-02-03']['股票3'])
-0.47845617563179627

# print(data['股票3']['2022-02-03']) # 先行后列会报错
# print(data[:1, :2]) # 不支持切片，会报错

2. 结合loc或iloc使用索引（先行后列）

loc 通过索引名称访问
iloc 通过索引下标访问，支持切片

print(data.loc['股票3']['2022-02-03']) 
print(data.iloc[1, 1])
print(data.iloc[:3, :4])

loc或iloc还可以进行组合索引访问

# 获取前5行，两列的值
print(data.loc[data.index[:5], ['2022-02-01', '2022-02-02']])
print(data.iloc[0:5, data.columns.get_indexer(['2022-02-01', '2022-02-02'])])

4.3 排序

1. sort_values(by=,ascending=) 对内容进行排序

by:根据单个键或者多个键（优先级从前到后）进行排序，默认升序 ascending=True
ascending=False，降序

print(data.sort_values(by='2022-02-01', ascending=False))
print(data.sort_values(by=['2022-02-01', '2022-02-02'], ascending=False))

2. sort_index(ascending=) 对索引进行排序

默认升序 ascending=True，降序为False

print(data.sort_index(ascending=False))

说明：Series的排序方法与DataFrame方法一致，因为只有一列，也不用指定键，只需要指定是升序或降序

5. DataFrame运算

5.1 算术运算

和一般算数运算方法类似，举几个例子

import pandas as pd
df = pd.DataFrame({
    'month': [1, 4, 7, 10],
    'year': [2018, 2019, 2020, 2021],
    'sale': [55, 40, 84, 33]
})
n = df['sale'][0]   # 55
print(n.__add__(2))    # 加法运算 <=> +
print(n.__sub__(2))    # 减法运算 <=> -
print(n.__mul__(2))    # 乘法运算 <=> *
print(n.__divmod__(2)) # 除余，得到商和余数 (商, 余数)
print(n.__mod__(2))    # 模运算（余数）<=> %
print(n.__abs__())    # 绝对值运算

5.2 逻辑运算

逻辑运算符号 < > | &

获取逻辑运算结果
将逻辑运算结果作为筛选条件进行数据筛选

print(df)
   month  year  sale
0      1  2018    55
1      4  2019    40
2      7  2020    84
3     10  2021    33
# 获取逻辑运算结果
print(df['sale'] > 50)
0     True
1    False
2     True
3    False
# 逻辑运算结果可以作为筛选的条件
print(df[df['sale'] > 50])  
Name: sale, dtype: bool
   month  year  sale
0      1  2018    55
2      7  2020    84

逻辑运算函数

query(expr) 通过条件字符串进行查询符合条件的数据
isin(values) 对数据进行逻辑判断，判断数据是否在指定的values中

5.3 统计运算

describe() 综合分析，统计数量count，平均值mean，标准差std，最大值，最小值等

print(data.head().describe())
       2022-02-01  2022-02-02  2022-02-03  2022-02-04  2022-02-07
count    5.000000    5.000000    5.000000    5.000000    5.000000
mean     0.731207    0.016387   -0.292730   -0.050105    0.491857
std      0.692347    1.184870    1.038632    0.897436    0.808612
min     -0.019900   -1.273726   -1.526506   -0.766793   -0.416006
25%      0.558542   -0.963643   -1.228403   -0.563485    0.043999
50%      0.581686   -0.036380   -0.031193   -0.553368    0.136538
75%      0.665749    0.797005    0.541065    0.229670    1.331016
max      1.869961    1.558681    0.781386    1.403449    1.363740

描述性统计函数

对于单个函数去统计的时候，坐标轴还是按照默认columns(axis=0),如需要对行统计，指定axis=1

其他统计函数

5.4 自定义运算

apply(func,axis)

func:自定义运算函数
axis:默认为0，对列运算

6. pandas画图

对象.plot(x=None,y=None,kind=‘line’)

x和y表示标签或者位置，默认为None
kind：表示绘图的类型，默认为line，折线图

- bar/barh：柱状图
- hist：直方图
- line：折线图
- pie：饼状图
- area：区域图
- scatter：散点图

import matplotlib.pyplot as plt

rise = data.loc['股票1'].cumsum()
print(rise)
rise.plot()    # 画图
plt.show()    # 显示

7. 文件的读取和存储

pandas支持的常用文件类型包括：HDF5、CSV、SQL、XLS、JSON等

1.CSV

pd.read_csv(‘filepath_or_buffer’, usecols=[]) 读取csv文件数据
- filepath_or_buffer：文件路径
- sep:分隔符，默认为’,’
- usecols：指定读取的列名，列表形式

import pandas as pd

data = pd.read_csv(r'../../fodder/stocks.csv', usecols=['open', 'high', 'low', 'close'])
print(data.head())
    open   high    low  close
0  29.76  29.97  29.52  29.96
1  28.49  29.51  28.42  29.50
2  28.76  28.95  28.47  28.50
3  28.41  28.95  28.32  28.90
4  28.37  28.61  28.33  28.36

df.to_csv(path_or_buf,columns=[],index=True,mode=‘w’) 将数据存储到csv文件中
- path_or_buf：文件存放的路径
- sep:分隔符，默认为’,’
- columns：列，列表形式
- mode：‘w’：重写，‘a’：追加
- header：是否写进列索引值
- index：是否写进行索引，默认True写进行索引，会将行索引变成一列数据
- encoding：编码格式，默认为None

# 将前十行数据写进新的文件中 index设置False，不写行索引
data[:10].to_csv(r'../../fodder/test.csv', columns=['open', 'close'], index=False)
# 查看写进文件的数据
data2 = pd.read_csv(r'../../fodder/test.csv')
print(data2)
    open  close
0  29.76  29.96
1  28.49  29.50
2  28.76  28.50
3  28.41  28.90
4  28.37  28.36
5  27.48  28.34
6  27.66  27.84
7  28.03  27.55
8  28.65  28.37
9  28.39  28.84

2.HDF5

读取HDF5文件（.h5）需要安装tables模块

pd.read_hdf(path_or_buf, key=None) 读取HDF5文件
- path_or_buf：文件路径
- key：读取的键

df.to_hdf(path_or_buf, key) 写入HDF5文件

path_or_buf：文件路径

key：写入文件时，必须指定一个键

# 读取.h5文件数据
data = pd.read_hdf(r'../../fodder/stocks.h5')
print(data.head())
# 将数据写入.h5文件
data.to_hdf(r'../../fodder/test.h5', key='a')
data2 = pd.read_hdf(r'../../fodder/test.h5', key='a')
print(data2.head())

3.JSON

pd.read_jsonf(path_or_buf, orient=None,typ=‘frame’,lines=False) 读取json文件
- path_or_buf：文件路径
- orient：指定数据存储的json形式，{‘split’,‘records’,‘index’,‘columns’,‘valuse’}
- typ：默认frame，指定转换成的对象类型Series或者DataFrame
- lines：默认False，按照每行读取json
  - pd.to_jsonf(path_or_buf, orient=None,lines=False) 存储json文件

path_or_buf：文件路径
orient：指定数据存储的json形式
lines：默认False，一个对象存储为一行。一般设置为Ture

# 读取json文件
data = pd.read_json(r'../../fodder/33510.json', orient='records', lines=True)
print(data.head())
# 写入json文件
data.to_json(r'../../fodder/test.json', orient='records', lines=True)
data2 = pd.read_json(r'../../fodder/test.json')
print(data2.head())

8. 数据的高级处理

8.1 缺失值处理

缺失值NaN的类型是float

print(type(np.NAN))
<class 'float'>

1. 判断数据是否有缺失值

pd.isnull(df)
pd.notnull(df)

# 读取xls数据
data = pd.read_excel(r'../Python/demo/reptile/豆瓣电影TOP250/豆瓣电影TOP250.xls')
# 只要包含缺失值，就为True
np.any(pd.isnull(data))     # True

2. 处理NaN

删除缺失值 dropna(inplace=False)，前提是缺失值的类型必须是np.NaN

# dropna()方法可以指定是否在原数据上进行删除 默认inplace=False 不修改原数据
newdata = data.dropna()  
np.any(pd.isnull(newdata))     # False

替换缺失值 fillna(value,inplace=False)

value：替换后的值、
inplace：默认False，表示不改变原数据，True表示在原数据上直接替换

for item in data.columns:
#     print(item) # 遍历所有列索引
    # 判断该列中是否含有缺失值
    if np.any(pd.isnull(data[item])): 
#         print(item)
        # 对该列中的缺失值进行替换
        data[item].fillna(value="this is queshizhi", inplace=True)

3. 缺失值不是NaN的情况，如默认标记符号

比如数据中存在"?"符号，则可以先将符号替换为NaN，再进行处理。

替换 replace(to_replace,value) ，在原数据上直接替换

to_replace：替换前的值
value：替换后的值

# 替换为np.NaN
data.replace(to_replace="?", value=np.NaN)
# 删除缺失值 在原数据上直接删除
data.dropna(inplace=True)

标签：02,index,Python,索引,详解,2022,print,data,pandas
From： https://www.cnblogs.com/tuixiulaozhou/p/16794015.html

Python库-pandas详解