# 对数据进行基本的探索 # 返回缺失值个数以及最大、最小值 # encoding:utf-8 import pandas as pd datafile = r'../data/air_data.csv' # 航空原始数据,第一行为属性标签 resultfile = r'../tmp/explore.csv' # 数据探索结果表 data = pd.read_csv(datafile, encoding = 'utf-8') # 包括对数据的基本描述,percentiles参数是指定计算多少的分位数表(如1/4分位数、中位数等) explore = data.describe(percentiles = [], include = 'all').T # describe()函数自动计算非空值数,需要手动计算空值 explore['null'] = len(data)-explore['count'] explore = explore[['null','max','min']] explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名 ''' 这里只选取部分探索结果。 describe()函数自动计算的字段有count(非空值数)、unique(唯一指数)、top(频数最高者)、 freq(最高频数)、mean(平均值)、std(方差)、min(最小值)、50%(中位数)、max(最大值) ''' explore.to_csv(resultfile) # 客户信息类别 # 提取会员入会年份 from datetime import datetime import matplotlib.pyplot as plt ffp = data['FFP_DATE'].apply(lambda x:datetime.strptime(x,'%Y/%m/%d')) ffp_year = ffp.map(lambda x : x.year) # 绘制各年份会员入会人数直方图 fig = plt.figure(figsize=(8,5)) # 设置画布大小 plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus'] = False #用来显示负号 plt.hist(ffp_year, bins = 'auto', color='#0504aa') plt.xlabel('年份') plt.ylabel('入会人数') plt.title('各年份会员入会人数 3105') plt.show() plt.close # 提取会员不同性别人数 male = pd.value_counts(data['GENDER'])['男'] female = pd.value_counts(data['GENDER'])['女'] # 绘制会员性别比例饼图 fig = plt.figure(figsize=(7, 4)) # 设置画布大小 plt.pie([male,female],labels=['男','女'],colors=['lightskyblue','lightcoral'],autopct='%1.1f%%') plt.title('会员性别比例 3105') plt.show() plt.close #提取不同级别会员的人数 lv_four = pd.value_counts(data['FFP_TIER'])[4] lv_five = pd.value_counts(data['FFP_TIER'])[5] lv_six = pd.value_counts(data['FFP_TIER'])[6] #绘制会员各级别人数条形图 fig = plt.figure(figsize=(8,5)) #设置画布大小 plt.bar(x=range(3),height=[lv_four,lv_five,lv_six], width=0.4, alpha=0.8, color='skyblue') plt.xticks([index for index in range(3)],['4','5','6']) plt.xlabel('会员等级') plt.ylabel('会员人数') plt.title('会员各级别人数 3105') plt.show() plt.close # 提取会员年龄 age = data['AGE'].dropna() age = age.astype('int64') # 绘图会员年龄分布箱型图 fig = plt.figure(figsize=(5, 10)) plt.boxplot(age, patch_artist=True, labels = ['会员年龄'], # 设置x轴标题 boxprops = {'facecolor':'lightblue'}) # 设置填充颜色 plt.title('会员年龄分布箱型图 3105') # 显示y坐标的底线 plt.grid(axis='y') plt.show() plt.close
# 7-3 探索客户乘机信息分布情况 lte = data['LAST_TO_END'] fc = data['FLIGHT_COUNT'] sks = data['SEG_KM_SUM'] #绘制最后乘机至结束时长箱型图 fig = plt.figure(figsize=(5,8)) plt.boxplot(lte, patch_artist=True, labels = ['时长'], #设置x轴标题 boxprops = {'facecolor':'lightblue'}) #设置填充颜色 plt.title('会员最后乘机至结束时长分布箱型图 学号3105') #显示y坐标轴的底线 plt.grid(axis='y') plt.show() plt.close #绘制客户飞行次数箱型图 fig = plt.figure(figsize=(5,8)) plt.boxplot(fc, patch_artist=True, labels = ['飞行次数'], #设置x轴标题 boxprops = {'facecolor':'lightblue'}) #设置填充颜色 plt.title('会员飞行次数分布箱型图 学号3105') # 显示y坐标的底线 plt.grid(axis='y') plt.show() plt.close # 绘制客户总飞行公里数箱型图 fig = plt.figure(figsize=(5,10)) plt.boxplot(sks, patch_artist=True, labels = ['总飞行公里数'], # 设置x轴标题 boxprops = {'facecolor':'lightblue'}) # 设置填充颜色 plt.title('客户总飞行公里数箱型图 学号3105') # 显示y坐标的底线 plt.grid(axis='y') plt.show() plt.close # 33333333333333333 # 7-4 探索客户的积分信息分布情况 # 积分信息分类 # 提取会员积分兑换次数 ec = data['EXCHANGE_COUNT'] #绘制会员兑换积分次数直方图 fig = plt.figure(figsize=(8,5)) plt.hist(ec, bins=5, color='#0504aa') plt.xlabel('兑换次数') plt.ylabel('会员人数') plt.title('会员兑换积分次数分布直方图 学号3105') plt.show() plt.close # 提取会员总累计积分 ps = data['Points_Sum'] # 绘制会员总累计积分箱型图 fig = plt.figure(figsize=(5,8)) plt.boxplot(ps, patch_artist=True, labels = ['总累计积分'], #设置x轴标题 boxprops = {'facecolor':'lightblue'}) #设置填充颜色 plt.title('客户总累计积分箱型图 学号3105') #显示y坐标轴的底线 plt.grid(axis='y') plt.show() plt.close # 444444444444 # 7-5 相关系数矩阵与热力图 # 提取属性并合并为新数据集 data_corr = data[['FFP_TIER', 'FLIGHT_COUNT', 'LAST_TO_END', 'SEG_KM_SUM', 'EXCHANGE_COUNT', 'Points_Sum']] age1 = data['AGE'].fillna(0) data_corr['AGE'] = age1.astype('int64') data_corr['ffp_year'] = ffp_year #计算相关性矩阵 dt_corr = data_corr.corr(method='pearson') print('相关性矩阵为:\n', dt_corr) # 绘制热力图 import seaborn as sns plt.subplots(figsize=(10, 10)) sns.heatmap(dt_corr, annot=True, vmax=1, square=True, cmap='Blues') plt.title('学号3105') plt.show() plt.close
#代码7-6 清洗空值与异常值 import numpy as np import pandas as pd datafile = "../data/air_data.csv" cleanedfile = "../tmp/data_cleaned.csv" #读取数据 airline_data = pd.read_csv(datafile,encoding = 'utf-8') print('原始数据的形状为:',airline_data.shape) #去除票价为空的记录 airline_notnull = airline_data.loc[airline_data['SUM_YR_1'].notnull() & airline_data['SUM_YR_2'].notnull(),:] print('删除缺失记录后数据的形状为:',airline_notnull.shape) # 只保留票价非零的,或者平均折扣率不为0且总飞行公里数大于0的记录 index1 = airline_notnull['SUM_YR_1'] != 0 index2 = airline_notnull['SUM_YR_2'] != 0 index3 = (airline_notnull['SEG_KM_SUM']>0) & (airline_notnull['avg_discount'] != 0) index4 = airline_notnull['AGE'] >100 # 去除年龄大于100的记录 airline = airline_notnull[(index1 | index2) & index3 & ~index4] print('数据清洗后数据的形状为:', airline.shape) airline.to_csv(cleanedfile) # 保存清洗后的数据 # 7-7 属性选择 import pandas as pd import numpy as np # 读取数据清洗后的数据 cleanedfile = "../tmp/data_cleaned.csv" # 数据清洗后保存的文件路径 airline = pd.read_csv(cleanedfile, encoding='utf-8') # 选取需求属性 airline_selection = airline[['FFP_DATE', 'LOAD_TIME', 'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM', 'avg_discount']] print('筛选的属性前5行为:\n', airline_selection.head()) # 7-8 属性构造与数据标准化 # 构造属性L L = pd.to_datetime(airline_selection['LOAD_TIME']) - pd.to_datetime(airline_selection['FFP_DATE']) L = L.astype('str').str.split().str[0] L = L.astype('int')/30 # 合并属性 airline_features = pd.concat([L,airline_selection.iloc[:,2:]],axis=1) print('构建的LRFMC属性前5行为:\n', airline_features.head()) # 数据标准化 from sklearn.preprocessing import StandardScaler data = StandardScaler().fit_transform(airline_features) np.savez('../tmp/airline_scale.npz', data) print('标准化后LRFMC 5个属性为:\n', data[:5,:]) #代码7-9 K-Meas聚类标准化后的数据 import pandas as pd import numpy as np from sklearn.cluster import KMeans #导入K-Mmeans算法 #读取标准化后的数据 airline_scale = np.load('../tmp/airline_scale.npz')['arr_0'] k = 5 #确定聚类中心数 #构建模型,随机种子设为123 kmeans_model = KMeans(n_clusters=k,n_jobs=4,random_state=123) fit_kmeans = kmeans_model.fit(airline_scale) #模型训练 #查看聚类结果 kmeans_cc = kmeans_model.cluster_centers_ #聚类中心 print('各聚类中心为:\n',kmeans_cc) kmeans_labels = kmeans_model.labels_ #样本的类别标签 print('各样本的类别标签为:\n',kmeans_labels) r1 = pd.Series(kmeans_model.labels_).value_counts() #统计不同类别样本的数目 print('最终每个类别的数目为:\n',r1) #输出聚类分群的结果 cluster_center = pd.DataFrame(kmeans_model.cluster_centers_,\ columns = ['ZL','ZR','ZF','ZM','ZC']) #将聚类中心放在数据中 cluster_center.index = pd.DataFrame(kmeans_model.labels_).\ drop_duplicates().iloc[:,0] #将样本类别作为数据框索引 print(cluster_center)
标签:分析,plt,客户,会员,airline,pd,import,价值,data From: https://www.cnblogs.com/lwqbk/p/17212387.html