删:
df2.dropna()
df2.dropna(subset=['消费','姓名'])
数据填充:
df.fillna(0)填充0
df.fillna({'客单价':666,'支付金额':df['支付金额'].min()})
df.drop_duplicates()//去重 删除所有行
df.drop_duplicates(subset = '流量级别')//从下往上删
df.drop_duplicates(subset = '流量级别',keep = 'last')//从上往下删
排序
sort_df = df.sort_values('支付金额',ascending = False) 降序
转置
sort_df.T
分组
df.groupby('name')['age','aaa'].sum()
df.groupby('name',as_index=False)['age','aaa'].sum()//不把分组选项变成索引列
df.groupby('流量级别')['访客数','支付金额'].sum().reset_index()
df.groupby('流量级别')[['支付转化率','客单价']].agg({'mean','sum'})
df.groupby('流量级别').agg({'访客数':'max','支付金额':'median'})
数据切分
df['分类打标'] = pd.cut(x = df['访客数'],bins = [0,100,1000,10000,100000],
right = False,labels = ['忽略级','百级','千级','万级'])