标签：... 10 python df 美食口碑 2016 ID abby

In [1]:

import warnings
warnings.filterwarnings('ignore')
import pandas as  pd
import numpy  as np
import matplotlib.pyplot as plt 

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

数据导入和清洗部分¶

商家数据shop_info.txt 的处理¶

In [16]:

# 导入商家数据 shop_info.txt。添加列名
columns=['商家ID','城市','所在位置编号','人均消费','评分','评论数','门店等级','一级分类','二级分类','三级分类']
df_shop = pd.read_table('./datasets/alibaba_dataset/shop_info.txt',sep=',',names=columns)

In [17]:

# 对数据的框架做初步检查: head(),shape(),info()等
df_shop.head()

Out[17]:

	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类
0	1	湖州	885	8	4.0	12.0	2	美食	休闲茶饮	饮品/甜点
1	2	哈尔滨	64	19	NaN	NaN	1	超市便利店	超市	NaN
2	3	南昌	774	5	3.0	2.0	0	美食	休闲茶饮	奶茶
3	4	天津	380	18	NaN	NaN	1	超市便利店	超市	NaN
4	5	杭州	263	2	2.0	2.0	0	美食	休闲食品	生鲜水果

In [19]:

df_shop.shape

Out[19]:

(2000, 10)

In [20]:

df_shop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   商家ID    2000 non-null   int64  
 1   城市      2000 non-null   object 
 2   所在位置编号  2000 non-null   int64  
 3   人均消费    2000 non-null   int64  
 4   评分      1709 non-null   float64
 5   评论数     1709 non-null   float64
 6   门店等级    2000 non-null   int64  
 7   一级分类    2000 non-null   object 
 8   二级分类    2000 non-null   object 
 9   三级分类    1415 non-null   object 
dtypes: float64(2), int64(4), object(4)
memory usage: 156.4+ KB

缺失值¶

In [18]:

#  检查哪些列有缺失值，有多少
df_shop.isnull().sum()

Out[18]:

商家ID        0
城市          0
所在位置编号      0
人均消费        0
评分        291
评论数       291
门店等级        0
一级分类        0
二级分类        0
三级分类      585
dtype: int64

In [9]:

# 统计缺失值的占比
for col in df_shop.columns:
    null_count = df_shop[col].isnull().sum()
    if null_count > 0:
        p = null_count / df_shop.shape[0] * 100
        print(col,'列存在空值的占比为：',p)

评分 列存在空值的占比为： 14.549999999999999
评论数 列存在空值的占比为： 14.549999999999999
三级分类名称 列存在空值的占比为： 29.25

In [31]:

# 填充 三级分类，用二级分类名称
df_shop['三级分类'] = df_shop['三级分类'].fillna(df_shop['二级分类'])

In [37]:

#  填充 评论数和评分. 检查 评分 和 评论数 的平均值是否有意义
df_shop.describe()

Out[37]:

	商家ID	所在位置编号	人均消费	评分	评论数	门店等级
count	2000.000000	2000.000000	2000.000000	1709.000000	1709.000000	2000.000000
mean	1000.500000	583.083000	10.479000	2.677004	3.130486	0.814500
std	577.494589	335.763357	5.762479	1.024211	3.499072	0.855836
min	1.000000	1.000000	1.000000	0.000000	0.000000	0.000000
25%	500.750000	287.750000	5.000000	2.000000	1.000000	0.000000
50%	1000.500000	577.500000	10.000000	3.000000	2.000000	1.000000
75%	1500.250000	877.250000	15.000000	3.000000	4.000000	2.000000
max	2000.000000	1159.000000	20.000000	4.000000	20.000000	2.000000

In [38]:

# 标准差（std） / 平均值(mean),如果小于 0.5，说明平均值有代表意义
1.02/2.67, 3.5/3.13

Out[38]:

(0.38202247191011235, 1.1182108626198084)

In [43]:

# 填充评分.用均值
df_shop['评分'] = df_shop['评分'].fillna(df_shop['评分'].mean())

In [48]:

df_shop['评论数'].value_counts()

Out[48]:

0.0     363
1.0     333
2.0     269
3.0     201
4.0     126
5.0      98
6.0      84
7.0      59
9.0      41
8.0      39
10.0     22
11.0     18
13.0     11
20.0     10
12.0      9
14.0      9
18.0      6
15.0      5
17.0      4
19.0      2
Name: 评论数, dtype: int64

In [49]:

# 填充评论数，用众数
df_shop['评论数'] = df_shop['评论数'].fillna(0)

In [50]:

df_shop.isnull().sum()

Out[50]:

商家ID      0
城市        0
所在位置编号    0
人均消费      0
评分        0
评论数       0
门店等级      0
一级分类      0
二级分类      0
三级分类      0
dtype: int64

重复值¶

In [54]:

df_shop.duplicated().sum()

Out[54]:

In [80]:

# 把清洗后的数据导出
df_shop.to_csv('./datasets/new_alibaba/df_shop.csv',index=False) #加index = False,消除Unnamed: 0

In [68]:

#  保存H5 文件
df_shop.to_hdf('./datasets/new_alibaba/df_shop_h5',key='df_shop')

In [ ]:

user_view 用户浏览数据的处理¶

In [59]:

#导入用户浏览数据
columns=['用户ID','商家ID','浏览时间']
df_view =  pd.read_table('./datasets/alibaba_dataset/user_view.txt',sep=',',names=columns)

In [61]:

df_view.info(null_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5556715 entries, 0 to 5556714
Data columns (total 3 columns):
 #   Column  Non-Null Count    Dtype 
---  ------  --------------    ----- 
 0   用户ID    5556715 non-null  int64 
 1   商家ID    5556715 non-null  int64 
 2   浏览时间    5556715 non-null  object
dtypes: int64(2), object(1)
memory usage: 127.2+ MB

In [62]:

# 重复值
df_view.duplicated().sum()

Out[62]:

In [63]:

# 删除重复值
df_view.drop_duplicates(inplace=True)

In [65]:

# 数据类型转换：把浏览时间 字段类型由 object 改为 时间类型
df_view['浏览时间'] = pd.to_datetime(df_view['浏览时间'])

In [66]:

df_view.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4799351 entries, 0 to 5556714
Data columns (total 3 columns):
 #   Column  Dtype         
---  ------  -----         
 0   用户ID    int64         
 1   商家ID    int64         
 2   浏览时间    datetime64[ns]
dtypes: datetime64[ns](1), int64(2)
memory usage: 146.5 MB

In [81]:

# 把清洗后的数据导出
df_view.to_csv('./datasets/new_alibaba/df_view.csv',index=False) #加index = False,消除Unnamed: 0

In [69]:

#  保存H5 文件
df_view.to_hdf('./datasets/new_alibaba/df_view_h5',key='df_view')

用户支付数据 user_pay 的处理¶

In [70]:

#导入用户支付数据
columns=['用户ID','商家ID','支付时间']
df_pay = pd.read_table('./datasets/alibaba_dataset/user_pay.txt',sep=',',names=columns)

In [71]:

df_pay.shape

Out[71]:

(69674110, 3)

In [72]:

df_pay.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 69674110 entries, 0 to 69674109
Data columns (total 3 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   用户ID    int64 
 1   商家ID    int64 
 2   支付时间    object
dtypes: int64(2), object(1)
memory usage: 1.6+ GB

In [73]:

# 重复值
df_pay.duplicated().sum()

Out[73]:

In [75]:

# 删除重复值
df_pay.drop_duplicates(inplace=True)

In [76]:

# 数据类型转换：把支付时间 字段类型由 object 改为 时间类型
df_pay['支付时间'] = pd.to_datetime(df_pay['支付时间'])

In [77]:

df_pay.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 67157026 entries, 0 to 69674108
Data columns (total 3 columns):
 #   Column  Dtype         
---  ------  -----         
 0   用户ID    int64         
 1   商家ID    int64         
 2   支付时间    datetime64[ns]
dtypes: datetime64[ns](1), int64(2)
memory usage: 2.0 GB

In [79]:

# 把清洗后的数据导出
df_pay.to_csv('./datasets/new_alibaba/df_pay.csv',index=False) #加index = False,消除Unnamed: 0

In [78]:

#  保存H5 文件
df_pay.to_hdf('./datasets/new_alibaba/df_pay_h5',key='df_pay')

数据分析部分¶

1、以城市为单位，统计每个城市总体消费金额（饼状图）¶

In [84]:

#  总体消费额 = 人均  *  消费人数
#  先计算user_pay表中 消费人数
df1 = df_pay.groupby('商家ID').agg({'用户ID':'nunique'}).rename(columns={'用户ID':'消费人数'})

In [86]:

# 合并 df_shop 与 df1,根据商家ID
df_shop_pay = pd.merge(df_shop,df1,on='商家ID')
df_shop_pay

Out[86]:

	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类	消费人数
0	1	湖州	885	8	4.000000	12.0	2	美食	休闲茶饮	饮品/甜点	29838
1	2	哈尔滨	64	19	2.677004	0.0	1	超市便利店	超市	超市	12863
2	3	南昌	774	5	3.000000	2.0	0	美食	休闲茶饮	奶茶	7234
3	4	天津	380	18	2.677004	0.0	1	超市便利店	超市	超市	5145
4	5	杭州	263	2	2.000000	2.0	0	美食	休闲食品	生鲜水果	8558
...	...	...	...	...	...	...	...	...	...	...	...
1995	1996	南宁	248	6	3.000000	1.0	0	美食	快餐	中式快餐	3820
1996	1997	上海	924	10	1.000000	2.0	0	美食	快餐	中式快餐	8544
1997	1998	南通	1090	1	2.000000	2.0	0	美食	小吃	面点	4616
1998	1999	成都	1134	19	2.677004	0.0	1	超市便利店	超市	超市	31795
1999	2000	杭州	378	7	3.000000	2.0	0	美食	小吃	面点	10162

2000 rows × 11 columns

In [87]:

# 计算每个商家的总消费额
df_shop_pay['总消费额'] = df_shop_pay['人均消费'] * df_shop_pay['消费人数']
df_shop_pay

Out[87]:

	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类	消费人数	总消费额
0	1	湖州	885	8	4.000000	12.0	2	美食	休闲茶饮	饮品/甜点	29838	238704
1	2	哈尔滨	64	19	2.677004	0.0	1	超市便利店	超市	超市	12863	244397
2	3	南昌	774	5	3.000000	2.0	0	美食	休闲茶饮	奶茶	7234	36170
3	4	天津	380	18	2.677004	0.0	1	超市便利店	超市	超市	5145	92610
4	5	杭州	263	2	2.000000	2.0	0	美食	休闲食品	生鲜水果	8558	17116
...	...	...	...	...	...	...	...	...	...	...	...	...
1995	1996	南宁	248	6	3.000000	1.0	0	美食	快餐	中式快餐	3820	22920
1996	1997	上海	924	10	1.000000	2.0	0	美食	快餐	中式快餐	8544	85440
1997	1998	南通	1090	1	2.000000	2.0	0	美食	小吃	面点	4616	4616
1998	1999	成都	1134	19	2.677004	0.0	1	超市便利店	超市	超市	31795	604105
1999	2000	杭州	378	7	3.000000	2.0	0	美食	小吃	面点	10162	71134

2000 rows × 12 columns

In [88]:

# 计算每个城市的总体消费额
df_pay_sum = df_shop_pay.groupby('城市')['总消费额'].sum().sort_values(ascending=False).to_frame().reset_index()
df_pay_sum

Out[88]:

	城市	总消费额
0	上海	50699615
1	杭州	43664682
2	北京	22541013
3	南京	21259202
4	广州	19358633
...	...	...
117	龙岩	60740
118	梧州	53544
119	张家口	47139
120	淮北	23675
121	廊坊	20808

122 rows × 2 columns

In [89]:

# 把top10以外的城市，换成：其它城市
df_pay_sum.iloc[10:122]['城市'] = '其它城市'
df_pay_sum

Out[89]:

	城市	总消费额
0	上海	50699615
1	杭州	43664682
2	北京	22541013
3	南京	21259202
4	广州	19358633
...	...	...
117	其它城市	60740
118	其它城市	53544
119	其它城市	47139
120	其它城市	23675
121	其它城市	20808

122 rows × 2 columns

In [90]:

# 准备数据，画饼图
df_pie = df_pay_sum.groupby('城市')['总消费额'].sum().sort_values(ascending = False).to_frame().reset_index()
df_pie

Out[90]:

	城市	总消费额
0	其它城市	109483445
1	上海	50699615
2	杭州	43664682
3	北京	22541013
4	南京	21259202
5	广州	19358633
6	武汉	18225215
7	苏州	16031142
8	深圳	11645203
9	宁波	8509201
10	温州	6875104

In [91]:

# 同时显示占比和数值
def make_autopct(x):
    def my_autopct(pct):
        total = sum(x)
        val = int(round(pct*total/100.0))
        return '{p:.2f}% \n{v:d}'.format(p=pct,v=val)
    return my_autopct

plt.figure(figsize=(15,8))

# 画饼图：每个城市的总消费额
plt.pie(x = df_pie['总消费额'],
        labels=df_pie['城市'], #为饼图添加标签说明
        labeldistance=1.05, #labels与圆圈边界的距离，默认为1.1
        autopct=make_autopct(df_pie['总消费额']),
        pctdistance=0.8,#百分比与圆心的距离，默认是0.6
        startangle=180, #倾斜角度
        counterclock=False, #顺时针
        textprops={
            'fontsize':14,
            'fontfamily':'FangSong'
        })
plt.title(label='每个城市总体消费金额(单位：元)',fontsize=18)
plt.axis('equal')#保证是一个圆形

plt.savefig('./datasets/new_alibaba/1_每个城市总体消费金额.png')
plt.show()

2. 以天为单位，统计所有商家交易发生次数和被用户浏览次数（曲线图）¶

In [93]:

df_view.head(2)

Out[93]:

	用户ID	商家ID	浏览时间
0	13201967	1197	2016-10-21 18:00:00
1	19461365	1197	2016-06-28 23:00:00

In [94]:

df_pay.head(2)

Out[94]:

	用户ID	商家ID	支付时间
0	22127870	1862	2015-12-25 17:00:00
1	3434231	1862	2016-10-05 11:00:00

In [100]:

# 新增一列 浏览日期，以天为单位
df_view['浏览日期'] = df_view['浏览时间'].astype('datetime64[D]')

In [101]:

# 新增一列 支付日期，以天为单位
df_pay['支付日期'] = df_pay['支付时间'].astype('datetime64[D]')

In [107]:

# 统计浏览次数，按天
view_num = df_view[['浏览日期','浏览时间']].groupby('浏览日期').agg('count').rename(columns={'浏览时间':'浏览次数'})
view_num

Out[107]:

	浏览次数
浏览日期
2016-06-22	35730
2016-06-23	55170
2016-06-24	62860
2016-06-25	98234
2016-06-26	44285
...	...
2016-10-27	28401
2016-10-28	27500
2016-10-29	31976
2016-10-30	30709
2016-10-31	27055

130 rows × 1 columns

In [108]:

# 统计支付次数，按天
pay_num = df_pay[['支付日期','支付时间']].groupby('支付日期').agg('count').rename(columns={'支付时间':'支付次数'})
pay_num

Out[108]:

	支付次数
支付日期
2015-06-26	63
2015-06-27	100
2015-06-28	126
2015-06-29	462
2015-06-30	577
...	...
2016-10-27	268715
2016-10-28	290495
2016-10-29	308201
2016-10-30	305081
2016-10-31	261771

493 rows × 1 columns

In [109]:

# 合并浏览和支付，根据日期
df_pay_view = pd.merge(left=view_num,right=pay_num,left_on=view_num.index,right_on=pay_num.index,how='outer')
df_pay_view

Out[109]:

	key_0	浏览次数	支付次数
0	2016-06-22	35730.0	208712
1	2016-06-23	55170.0	222973
2	2016-06-24	62860.0	237014
3	2016-06-25	98234.0	263007
4	2016-06-26	44285.0	235750
...	...	...	...
488	2016-06-19	NaN	211245
489	2016-06-20	NaN	194630
490	2016-06-21	NaN	205581
491	2016-07-22	NaN	248860
492	2016-07-25	NaN	234366

493 rows × 3 columns

In [116]:

# 画折线图
plt.figure(figsize=(10,8))

plt.plot(df_pay_view['key_0'],
       df_pay_view['支付次数'],
        color='r')

plt.plot(df_pay_view['key_0'],
       df_pay_view['浏览次数'],
        color='b')

plt.title('所有商家交易数和浏览数（以天为单位）',fontsize=20)
plt.xlabel('日期')
plt.legend(['交易数','浏览数'])
plt.savefig('./datasets/new_alibaba/2_所有商家交易数和浏览数（以天为单位）.png')
plt.show()

3. 统计最受欢迎的前 10 类商品（按照二级分类统计），并输出他们的人均消费（选择合适图表对其可视化，类似排行榜）¶

In [121]:

df_score = df_shop.groupby('二级分类').agg({'评分':'mean','人均消费':'mean'}).sort_values(by ='评分',ascending=False)

In [123]:

df_score = df_score.iloc[0:10]

In [127]:

df_score

Out[127]:

	评分	人均消费
二级分类
本地购物	4.000000	20.000000
休闲茶饮	3.316384	6.401130
烘焙糕点	3.032787	9.737705
汤/粥/煲/砂锅/炖菜	3.000000	8.000000
美容美发	3.000000	20.000000
网吧网咖	3.000000	13.000000
便利店	2.954919	3.932039
超市	2.807244	15.806452
休闲食品	2.793333	8.680000
火锅	2.787879	16.242424

In [126]:

# 画图
plt.figure(figsize=(15,7))

plt.barh(df_score.sort_values(by='评分').index,
       width=df_score['人均消费'],
        height=0.4,
        label='人均消费',
       edgecolor='black')

plt.barh(
        df_score.index,
       width=df_score['评分'],
        height=0.15,
       label='评分',
       edgecolor='black')

plt.legend(loc=1,fontsize=14)
plt.ylabel('商品的二级分类',fontsize=18)
plt.xlabel('评分和人均消费',fontsize=18)
plt.title('最受欢迎top10商品人均消费',fontsize=25)

plt.savefig('./datasets/new_alibaba/3_最受欢迎top10商品人均消费.png')
plt.show()

4. 平均日交易额最大的前 10 个商家，并输出他们各自的交易额，并选择合适的图表对结果进行可视化¶

In [ ]:

#  平均日交易额 = 人均消费 * 人数（去重）  /  天数
# 这里的天数，怎么算？ 是有交易记录的天数 还是按交易周期算？

In [128]:

# 1、先计算商家的去重用户数和天数
df_users_days = df_pay.groupby('商家ID').agg({'用户ID':'nunique','支付日期':'nunique'}).rename(columns={'用户ID':'用户数','支付日期':'天数'})
df_users_days

In [131]:

#  和商家信息合并
df1 = pd.merge(df_users_days,df_shop,left_on=df_users_days.index,right_on=df_shop['商家ID'],how='outer')
df1

Out[131]:

	key_0	用户数	天数	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类
0	1	29838	387	1	湖州	885	8	4.000000	12.0	2	美食	休闲茶饮	饮品/甜点
1	2	12863	329	2	哈尔滨	64	19	2.677004	0.0	1	超市便利店	超市	超市
2	3	7234	136	3	南昌	774	5	3.000000	2.0	0	美食	休闲茶饮	奶茶
3	4	5145	105	4	天津	380	18	2.677004	0.0	1	超市便利店	超市	超市
4	5	8558	202	5	杭州	263	2	2.000000	2.0	0	美食	休闲食品	生鲜水果
...	...	...	...	...	...	...	...	...	...	...	...	...	...
1995	1996	3820	104	1996	南宁	248	6	3.000000	1.0	0	美食	快餐	中式快餐
1996	1997	8544	330	1997	上海	924	10	1.000000	2.0	0	美食	快餐	中式快餐
1997	1998	4616	266	1998	南通	1090	1	2.000000	2.0	0	美食	小吃	面点
1998	1999	31795	331	1999	成都	1134	19	2.677004	0.0	1	超市便利店	超市	超市
1999	2000	10162	175	2000	杭州	378	7	3.000000	2.0	0	美食	小吃	面点

2000 rows × 13 columns

In [134]:

# 计算平均日交易额
df1['平均日交易额'] = (df1['用户数'] * df1['人均消费']) /df1['天数']
df1

Out[134]:

	key_0	用户数	天数	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类	平均日交易额
0	1	29838	387	1	湖州	885	8	4.000000	12.0	2	美食	休闲茶饮	饮品/甜点	616.806202
1	2	12863	329	2	哈尔滨	64	19	2.677004	0.0	1	超市便利店	超市	超市	742.848024
2	3	7234	136	3	南昌	774	5	3.000000	2.0	0	美食	休闲茶饮	奶茶	265.955882
3	4	5145	105	4	天津	380	18	2.677004	0.0	1	超市便利店	超市	超市	882.000000
4	5	8558	202	5	杭州	263	2	2.000000	2.0	0	美食	休闲食品	生鲜水果	84.732673
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
1995	1996	3820	104	1996	南宁	248	6	3.000000	1.0	0	美食	快餐	中式快餐	220.384615
1996	1997	8544	330	1997	上海	924	10	1.000000	2.0	0	美食	快餐	中式快餐	258.909091
1997	1998	4616	266	1998	南通	1090	1	2.000000	2.0	0	美食	小吃	面点	17.353383
1998	1999	31795	331	1999	成都	1134	19	2.677004	0.0	1	超市便利店	超市	超市	1825.090634
1999	2000	10162	175	2000	杭州	378	7	3.000000	2.0	0	美食	小吃	面点	406.480000

2000 rows × 14 columns

In [141]:

# 按照日交易额排序,并且取出前10个
df2 = df1[['商家ID','平均日交易额']].sort_values(by='平均日交易额',ascending = False).iloc[0:10]
df2

Out[141]:

	商家ID	平均日交易额
1628	1629	12289.292308
1927	1928	9903.918367
516	517	9443.319149
57	58	6340.408719
1345	1346	5506.428571
1900	1901	4357.135417
1820	1821	4070.501538
727	728	4017.666667
1984	1985	4010.524691
1534	1535	3993.099698

In [143]:

# 重置DF 的索引，作为条形图的 x 
df = df2.reset_index()
df

Out[143]:

	index	商家ID	平均日交易额
0	1628	1629	12289.292308
1	1927	1928	9903.918367
2	516	517	9443.319149
3	57	58	6340.408719
4	1345	1346	5506.428571
5	1900	1901	4357.135417
6	1820	1821	4070.501538
7	727	728	4017.666667
8	1984	1985	4010.524691
9	1534	1535	3993.099698

In [145]:

# 画图
plt.figure(figsize=(15,7))

x = df.index
height = df['平均日交易额']
plt.bar(x,
       height=height,
        width=0.4,
       edgecolor='black',
        label='平均日交易额'
       )
plt.legend(loc=1,fontsize=14)

# 修改x轴的值
plt.xticks(x,df['商家ID'])

plt.ylabel('平均日交易额',fontsize=18)
plt.xlabel('商家ID',fontsize=18)
plt.title('平均日交易额top10商家',fontsize=25)

# 在指定的位置，显示值
for i,j in zip(x,height):
    plt.text(i,j+150,'%d'%j,horizontalalignment='center')

plt.savefig('./datasets/new_alibaba/4_平均日交易额最大的前10商家.png')
plt.show()

5. 输出北京、上海、广州和深圳四个城市最受欢迎的 5 家奶茶商店和中式快餐编号（最受欢迎是指以下得分最高：0.7 ✖(平均评分/5) + 0.3 ✖ (平均消费金额/最高消费金额)，注：最高消费金额和平均消费金额是从所有消费记录统计出来的）¶

In [147]:

#  4个城市的奶茶店
df1 = df_shop[(df_shop['城市'].isin(['北京', '上海','广州','深圳'])) & (df_shop['三级分类']== '奶茶')]
df1

Out[147]:

	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类
134	135	上海	828	7	4.0	4.0	0	美食	休闲茶饮	奶茶
143	144	上海	1054	5	4.0	2.0	0	美食	休闲茶饮	奶茶
193	194	上海	1032	5	3.0	1.0	0	美食	休闲茶饮	奶茶
214	215	北京	77	4	3.0	7.0	0	美食	休闲茶饮	奶茶
243	244	广州	44	2	3.0	2.0	0	美食	休闲茶饮	奶茶
389	390	北京	534	4	3.0	3.0	0	美食	休闲茶饮	奶茶
662	663	上海	709	4	3.0	3.0	2	美食	休闲茶饮	奶茶
751	752	深圳	991	15	4.0	2.0	0	美食	休闲茶饮	奶茶
758	759	上海	882	5	4.0	2.0	0	美食	休闲茶饮	奶茶
795	796	广州	36	9	3.0	2.0	0	美食	休闲茶饮	奶茶
799	800	上海	545	6	4.0	5.0	0	美食	休闲茶饮	奶茶
909	910	上海	1032	6	4.0	6.0	0	美食	休闲茶饮	奶茶
912	913	广州	552	8	3.0	3.0	0	美食	休闲茶饮	奶茶
1055	1056	上海	709	4	3.0	4.0	2	美食	休闲茶饮	奶茶
1181	1182	深圳	531	8	3.0	2.0	0	美食	休闲茶饮	奶茶
1192	1193	上海	642	7	4.0	1.0	0	美食	休闲茶饮	奶茶
1202	1203	上海	153	5	3.0	4.0	2	美食	休闲茶饮	奶茶
1240	1241	上海	1054	6	4.0	2.0	0	美食	休闲茶饮	奶茶
1588	1589	上海	1003	6	4.0	3.0	0	美食	休闲茶饮	奶茶
1618	1619	上海	501	6	3.0	4.0	0	美食	休闲茶饮	奶茶
1696	1697	上海	921	5	3.0	3.0	0	美食	休闲茶饮	奶茶
1704	1705	上海	545	4	4.0	2.0	0	美食	休闲茶饮	奶茶
1827	1828	广州	392	5	3.0	3.0	0	美食	休闲茶饮	奶茶
1859	1860	上海	697	5	3.0	3.0	2	美食	休闲茶饮	奶茶
1886	1887	上海	694	5	3.0	5.0	2	美食	休闲茶饮	奶茶
1970	1971	上海	642	6	4.0	4.0	0	美食	休闲茶饮	奶茶
1973	1974	上海	1127	6	4.0	3.0	0	美食	休闲茶饮	奶茶

In [148]:

# 4个城市 得分最高的5家奶茶店
df1['最终得分'] = 0.7 * (df1['评分'] / 5) + 0.3 * (df1['人均消费'] / max(df1['人均消费']))
df11 = df1.sort_values(by = '最终得分',ascending = False).iloc[0:5]
df11

Out[148]:

	商家ID	城市	所在位置编号	人均消费	评分	评论数	一级分类	二级分类	三级分类	最终得分
751	752	深圳	991	15	4.0	2.0	美食	休闲茶饮	奶茶	0.86
134	135	上海	828	7	4.0	4.0	美食	休闲茶饮	奶茶	0.70
1192	1193	上海	642	7	4.0	1.0	美食	休闲茶饮	奶茶	0.70
799	800	上海	545	6	4.0	5.0	美食	休闲茶饮	奶茶	0.68
1970	1971	上海	642	6	4.0	4.0	美食	休闲茶饮	奶茶	0.68

In [150]:

#  4个城市的快餐店
df2 = df_shop[(df_shop['城市'].isin(['北京', '上海','广州','深圳'])) & (df_shop['三级分类']== '中式快餐')]
df2

Out[150]:

	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类
13	14	深圳	862	7	1.0	4.0	2	美食	快餐	中式快餐
50	51	北京	659	12	2.0	3.0	2	美食	快餐	中式快餐
77	78	上海	699	8	1.0	1.0	0	美食	快餐	中式快餐
78	79	上海	1033	15	2.0	3.0	1	美食	快餐	中式快餐
92	93	深圳	813	5	0.0	1.0	0	美食	快餐	中式快餐
...	...	...	...	...	...	...	...	...	...	...
1888	1889	北京	916	5	3.0	0.0	0	美食	快餐	中式快餐
1914	1915	北京	322	10	3.0	3.0	0	美食	快餐	中式快餐
1929	1930	上海	993	7	2.0	2.0	2	美食	快餐	中式快餐
1930	1931	深圳	1109	4	0.0	4.0	0	美食	快餐	中式快餐
1996	1997	上海	924	10	1.0	2.0	0	美食	快餐	中式快餐

104 rows × 10 columns

In [151]:

# 4个城市 得分最高的5家快餐店
df2['最终得分'] = 0.7 * (df2['评分'] / 5) + 0.3 * (df2['人均消费'] / max(df2['人均消费']))
df22 = df2.sort_values(by = '最终得分',ascending = False).iloc[0:5]
df22

Out[151]:

	商家ID	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类	最终得分
1370	1371	北京	916	17	4.0	3.0	1	美食	快餐	中式快餐	0.815
872	873	上海	358	11	4.0	1.0	0	美食	快餐	中式快餐	0.725
1532	1533	北京	319	18	3.0	10.0	2	美食	快餐	中式快餐	0.690
823	824	上海	1065	18	3.0	1.0	0	美食	快餐	中式快餐	0.690
894	895	上海	924	16	3.0	1.0	0	美食	快餐	中式快餐	0.660

In [187]:

# 输出
pd.merge(df11[['商家ID','三级分类','城市','最终得分']],(df22[['商家ID','三级分类','城市','最终得分']]),how='outer')

Out[187]:

	商家ID	三级分类	城市	最终得分
0	752	奶茶	深圳	0.860
1	135	奶茶	上海	0.700
2	1193	奶茶	上海	0.700
3	800	奶茶	上海	0.680
4	1971	奶茶	上海	0.680
5	1371	中式快餐	北京	0.815
6	873	中式快餐	上海	0.725
7	1533	中式快餐	北京	0.690
8	824	中式快餐	上海	0.690
9	895	中式快餐	上海	0.660

6. 留存分析¶

（对于平均日交易额最大的前 3 个商家，对他们进行漏斗分析，以浏览行为作为分析目标，输出 2016.10.01~2016.10.31 共 31 天的留存率，输出为类似以下矩阵（注意表中数值不一定准确，仅用作示例说明），请选择合适的图表进行可视化：（注：第 0 天留存率表示当天活跃的用户比例（一定是 100%，比如有 1000 人浏览），第 1 天留存率表示第 0 天活跃的用户在第一天也活跃的比例（比如前面 1000 人中第 1 天也活跃的用户有 820 人，则留存率为 82%），第 2 天留存率表示第 0 天活跃的用户在第 2 天也活跃的比例（比如前面 1000 人中第 2 天也活跃的用户有 600 人，则留存率为 60%），以此类推….）

In [ ]:

# 前面第4题已经有了平均日交易额最大的前10个商家，直接用即可。
# 1929、1928、517

In [158]:

# 取出商家id= 1629，1928，517，2016年10月的浏览数据
df_view_top3 = df_view[(df_view['商家ID'].isin([1629,1928,517])) & (df_view['浏览日期'].dt.month == 10) & (df_view['浏览日期'].dt.year == 2016)]
df_view_top3

Out[158]:

	用户ID	商家ID	浏览时间	浏览日期
2275032	10071392	517	2016-10-22 21:00:00	2016-10-22
2275043	9541932	517	2016-10-18 21:00:00	2016-10-18
2275050	8584386	517	2016-10-13 12:00:00	2016-10-13
2275059	19453077	517	2016-10-21 10:00:00	2016-10-21
2275061	19926664	517	2016-10-29 20:00:00	2016-10-29
...	...	...	...	...
3610317	22565138	1629	2016-10-10 22:00:00	2016-10-10
3610324	12194265	1629	2016-10-20 14:00:00	2016-10-20
3610331	376707	1629	2016-10-06 19:00:00	2016-10-06
3610341	21686088	1629	2016-10-02 20:00:00	2016-10-02
3610357	17863648	1629	2016-10-23 23:00:00	2016-10-23

5356 rows × 4 columns

In [160]:

# 把 浏览时间（日） 变成 index
df_view_top3.set_index('浏览日期',inplace=True)

In [184]:

# 按照日期 索引进行排序，并且取出用户ID
df = df_view_top3.sort_index()[['用户ID']]
df

Out[184]:

	用户ID
浏览日期
2016-10-01	17832138
2016-10-01	7999628
2016-10-01	15779039
2016-10-01	3837194
2016-10-01	2253587
...	...
2016-10-31	20293092
2016-10-31	21985171
2016-10-31	4683583
2016-10-31	11180310
2016-10-31	11070560

5356 rows × 1 columns

In [185]:

# 用来存放结果
result_df = pd.DataFrame(index = df.index.unique(),columns=df.index.unique())
result_df

for i in result_df.index:
    base_user = df.loc[i,]['用户ID'].nunique()
    for j in result_df.columns:
        if j == i:
            result_df.loc[i,j] = base_user
        elif j>=i:
            current_users = pd.merge(df.loc[i,][['用户ID']],df.loc[j,][['用户ID']])
            current_user_num =  current_users['用户ID'].count()
            result_df.loc[i,j] = current_user_num
        else:
            result_df.loc[i,j] = ''

In [186]:

result_df.index.name=None
result_df

Out[186]:

浏览日期	2016-10-01	2016-10-02	2016-10-03	2016-10-04	2016-10-05	2016-10-06	2016-10-07	2016-10-08	2016-10-09	2016-10-10	...	2016-10-22	2016-10-23	2016-10-24	2016-10-25	2016-10-26	2016-10-27	2016-10-28	2016-10-29	2016-10-30	2016-10-31
2016-10-01	291	2	1	3	0	1	0	1	0	4	...	0	2	1	1	0	5	0	0	0	0
2016-10-02		226	1	2	1	1	2	0	0	0	...	0	0	0	2	0	0	0	1	0	0
2016-10-03			174	3	0	1	0	1	1	0	...	0	1	0	0	0	0	0	0	0	0
2016-10-04				180	2	0	0	1	1	0	...	1	1	0	0	0	0	0	0	0	0
2016-10-05					173	0	2	0	1	0	...	0	0	0	0	0	0	0	0	0	0
2016-10-06						188	3	0	3	0	...	0	2	0	0	0	0	0	0	0	0
2016-10-07							252	2	2	2	...	1	1	1	0	0	0	0	0	0	0
2016-10-08								212	5	0	...	0	2	1	0	0	0	0	1	0	0
2016-10-09									212	2	...	1	2	0	0	0	0	0	0	0	0
2016-10-10										195	...	0	0	0	0	0	2	1	0	2	0
2016-10-11											...	0	0	0	0	1	0	0	0	0	1
2016-10-12											...	0	1	2	0	0	2	0	0	0	1
2016-10-13											...	0	3	0	0	0	0	0	0	0	1
2016-10-14											...	2	1	0	0	3	1	4	0	0	0
2016-10-15											...	3	2	2	0	0	0	0	1	2	0
2016-10-16											...	1	3	0	0	0	0	3	2	0	0
2016-10-17											...	3	1	0	1	0	1	0	0	2	0
2016-10-18											...	0	0	0	0	1	4	0	0	0	0
2016-10-19											...	2	1	2	1	0	0	0	0	0	1
2016-10-20											...	1	1	1	1	1	0	1	1	0	0
2016-10-21											...	0	1	0	0	0	1	1	1	0	0
2016-10-22											...	210	3	1	1	2	1	2	1	2	0
2016-10-23											...		166	1	0	1	2	1	1	2	0
2016-10-24											...			96	2	1	0	0	3	0	0
2016-10-25											...				97	0	0	0	1	0	0
2016-10-26											...					98	4	1	0	0	0
2016-10-27											...						131	1	3	0	0
2016-10-28											...							178	0	0	0
2016-10-29											...								166	1	2
2016-10-30											...									159	2
2016-10-31											...										135

31 rows × 31 columns

In [179]:

7. 找到被浏览次数最多的 50 个商家，并输出他们的城市以及人均消费，并选择合适的图表对结果进行可视化¶

In [165]:

# 浏览次数top 50的商家ID
view_num = df_view.groupby('商家ID')['浏览时间'].count().to_frame().sort_values(by='浏览时间',ascending=False)
view_num= view_num.iloc[0:50,].index.to_frame()
view_num

Out[165]:

	商家ID
商家ID
1911	1911
1677	1677
1539	1539
1670	1670
799	799
44	44
1823	1823
885	885
1322	1322
195	195
852	852
647	647
887	887
675	675
431	431
1108	1108
1629	1629
1935	1935
1883	1883
1692	1692
1992	1992
1202	1202
1017	1017
451	451
58	58
1221	1221
1362	1362
347	347
522	522
1142	1142
187	187
577	577
425	425
570	570
364	364
671	671
737	737
283	283
891	891
844	844
155	155
1478	1478
298	298
1311	1311
1553	1553
1646	1646
30	30
408	408
256	256
1821	1821

In [166]:

# 连接
df_7 = pd.merge(view_num,df_shop,left_on = view_num.index,right_on = df_shop['商家ID'],how='left')
df_7

Out[166]:

	key_0	商家ID_x	商家ID_y	城市	所在位置编号	人均消费	评分	评论数	门店等级	一级分类	二级分类	三级分类
0	1911	1911	1911	天津	625	20	4.000000	8.0	2	美食	火锅	川味/重庆火锅
1	1677	1677	1677	济南	23	20	4.000000	7.0	2	美食	火锅	川味/重庆火锅
2	1539	1539	1539	宁波	245	20	4.000000	6.0	2	美食	火锅	川味/重庆火锅
3	1670	1670	1670	南京	680	20	4.000000	10.0	2	美食	火锅	川味/重庆火锅
4	799	799	799	苏州	790	20	4.000000	6.0	2	美食	火锅	川味/重庆火锅
5	44	44	44	郑州	1088	20	4.000000	5.0	2	美食	火锅	川味/重庆火锅
6	1823	1823	1823	广州	36	20	4.000000	8.0	2	美食	火锅	川味/重庆火锅
7	885	885	885	武汉	65	20	4.000000	9.0	2	美食	火锅	川味/重庆火锅
8	1322	1322	1322	杭州	1093	20	4.000000	8.0	2	美食	火锅	川味/重庆火锅
9	195	195	195	孝感	98	19	1.000000	4.0	2	美食	其他美食	西餐
10	852	852	852	武汉	605	20	2.000000	11.0	1	美食	其他美食	西餐
11	647	647	647	达州	518	19	2.677004	0.0	1	超市便利店	超市	超市
12	887	887	887	武汉	435	20	1.000000	6.0	2	美食	其他美食	西餐
13	675	675	675	梧州	164	4	3.000000	6.0	2	美食	快餐	西式快餐
14	431	431	431	东莞	913	9	2.000000	5.0	2	美食	快餐	西式快餐
15	1108	1108	1108	南京	1126	20	4.000000	6.0	2	美食	火锅	川味/重庆火锅
16	1629	1629	1629	苏州	1147	20	3.000000	2.0	1	超市便利店	超市	超市
17	1935	1935	1935	嘉兴	393	2	3.000000	3.0	0	美食	休闲食品	生鲜水果
18	1883	1883	1883	苏州	63	20	4.000000	3.0	2	美食	火锅	川味/重庆火锅
19	1692	1692	1692	东莞	184	20	2.677004	0.0	1	超市便利店	超市	超市
20	1992	1992	1992	安康	118	19	2.677004	0.0	1	超市便利店	超市	超市
21	1202	1202	1202	江门	1016	6	2.000000	3.0	2	美食	快餐	西式快餐
22	1017	1017	1017	邢台	1077	18	2.677004	0.0	1	超市便利店	超市	超市
23	451	451	451	杭州	405	20	4.000000	6.0	2	美食	火锅	川味/重庆火锅
24	58	58	58	杭州	1093	19	3.000000	2.0	1	超市便利店	超市	超市
25	1221	1221	1221	合肥	814	5	4.000000	7.0	0	美食	休闲茶饮	奶茶
26	1362	1362	1362	长治	224	15	3.000000	6.0	2	美食	快餐	西式快餐
27	347	347	347	邯郸	604	7	3.000000	3.0	2	美食	快餐	西式快餐
28	522	522	522	深圳	991	20	2.000000	6.0	2	美食	中餐	江浙菜
29	1142	1142	1142	石家庄	703	19	3.000000	2.0	0	美食	中餐	其它地方菜
30	187	187	187	惠州	83	8	2.000000	5.0	2	美食	快餐	西式快餐
31	577	577	577	金华	437	20	2.677004	0.0	1	超市便利店	超市	超市
32	425	425	425	上海	809	19	3.000000	4.0	0	美食	中餐	西北菜
33	570	570	570	湖州	899	6	3.000000	12.0	2	美食	快餐	西式快餐
34	364	364	364	佛山	82	20	0.000000	4.0	0	美食	中餐	江浙菜
35	671	671	671	成都	446	19	4.000000	0.0	1	超市便利店	超市	超市
36	737	737	737	广州	132	9	2.000000	17.0	2	美食	快餐	西式快餐
37	283	283	283	大连	227	20	4.000000	9.0	0	美食	中餐	海鲜
38	891	891	891	杭州	264	9	3.000000	20.0	2	美食	快餐	西式快餐
39	844	844	844	武汉	653	19	2.000000	6.0	1	美食	其他美食	西餐
40	155	155	155	江门	635	7	3.000000	7.0	2	美食	快餐	西式快餐
41	1478	1478	1478	绍兴	912	1	4.000000	7.0	1	美食	休闲茶饮	奶茶
42	298	298	298	西安	1020	19	2.677004	0.0	1	超市便利店	超市	超市
43	1311	1311	1311	广州	488	20	2.000000	5.0	2	美食	其他美食	西餐
44	1553	1553	1553	南宁	793	13	3.000000	9.0	2	美食	快餐	西式快餐
45	1646	1646	1646	玉林	1089	15	2.000000	7.0	2	美食	快餐	西式快餐
46	30	30	30	中山	498	7	2.000000	2.0	2	美食	快餐	西式快餐
47	408	408	408	贵阳	666	20	2.677004	0.0	1	超市便利店	超市	超市
48	256	256	256	南宁	76	18	3.000000	0.0	1	超市便利店	超市	超市
49	1821	1821	1821	无锡	177	19	3.000000	0.0	1	超市便利店	超市	超市

In [169]:

# 输出城市和人均消费
df7 = df_7[['商家ID_x','城市','人均消费']]
df7

Out[169]:

	商家ID_x	城市	人均消费
0	1911	天津	20
1	1677	济南	20
2	1539	宁波	20
3	1670	南京	20
4	799	苏州	20
5	44	郑州	20
6	1823	广州	20
7	885	武汉	20
8	1322	杭州	20
9	195	孝感	19
10	852	武汉	20
11	647	达州	19
12	887	武汉	20
13	675	梧州	4
14	431	东莞	9
15	1108	南京	20
16	1629	苏州	20
17	1935	嘉兴	2
18	1883	苏州	20
19	1692	东莞	20
20	1992	安康	19
21	1202	江门	6
22	1017	邢台	18
23	451	杭州	20
24	58	杭州	19
25	1221	合肥	5
26	1362	长治	15
27	347	邯郸	7
28	522	深圳	20
29	1142	石家庄	19
30	187	惠州	8
31	577	金华	20
32	425	上海	19
33	570	湖州	6
34	364	佛山	20
35	671	成都	19
36	737	广州	9
37	283	大连	20
38	891	杭州	9
39	844	武汉	19
40	155	江门	7
41	1478	绍兴	1
42	298	西安	19
43	1311	广州	20
44	1553	南宁	13
45	1646	玉林	15
46	30	中山	7
47	408	贵阳	20
48	256	南宁	18
49	1821	无锡	19

In [177]:

# 导出到tableau画地图
df7.to_csv('./datasets/new_alibaba/浏览次数最多的50个商家.csv',index=False) #加index = False,消除Unnamed: 0

In [170]:

#  看人均消费
plt.plot(df['人均消费'])

plt.title('浏览次数最多的TOP50商家 人均消费')
plt.show()

In [171]:

df7.index

Out[171]:

Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
            17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
            34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
           dtype='int64')

In [176]:

# 看城市分布

In [178]:

df7['城市']

Out[178]:

0      天津
1      济南
2      宁波
3      南京
4      苏州
5      郑州
6      广州
7      武汉
8      杭州
9      孝感
10     武汉
11     达州
12     武汉
13     梧州
14     东莞
15     南京
16     苏州
17     嘉兴
18     苏州
19     东莞
20     安康
21     江门
22     邢台
23     杭州
24     杭州
25     合肥
26     长治
27     邯郸
28     深圳
29    石家庄
30     惠州
31     金华
32     上海
33     湖州
34     佛山
35     成都
36     广州
37     大连
38     杭州
39     武汉
40     江门
41     绍兴
42     西安
43     广州
44     南宁
45     玉林
46     中山
47     贵阳
48     南宁
49     无锡
Name: 城市, dtype: object

In [ ]:

标签：...,10,python,df,美食,口碑,2016,ID,abby
From： https://www.cnblogs.com/wuxiaoyan/p/16963924.html

abby：python 阿里口碑商家流量分析

数据导入和清洗部分¶

商家数据shop_info.txt 的处理¶

缺失值¶

重复值¶

user_view 用户浏览数据的处理¶

用户支付数据 user_pay 的处理¶

数据分析部分¶

1、以城市为单位，统计每个城市总体消费金额（饼状图）¶

2. 以天为单位，统计所有商家交易发生次数和被用户浏览次数（曲线图）¶

3. 统计最受欢迎的前 10 类商品（按照二级分类统计），并输出他们的人均消费（选择合适图表对其可视化，类似排行榜）¶

4. 平均日交易额最大的前 10 个商家，并输出他们各自的交易额，并选择合适的图表对结果进行可视化¶

6. 留存分析¶

7. 找到被浏览次数最多的 50 个商家，并输出他们的城市以及人均消费，并选择合适的图表对结果进行可视化¶

相关文章

赞助商

阅读排行

abby：python 阿里口碑商家流量分析

数据导入和清洗部分¶

商家数据shop_info.txt 的处理¶

缺失值¶

重复值¶

user_view 用户浏览数据的处理¶

用户支付数据 user_pay 的处理¶

数据分析部分¶

1、以城市为单位，统计每个城市总体消费金额 （饼状图）¶

2. 以天为单位，统计所有商家交易发生次数和被用户浏览次数 （曲线图）¶

3. 统计最受欢迎的前 10 类商品（按照二级分类统计），并输出他们的人均消费（选择合适图表对其可视化，类似排行榜）¶

4. 平均日交易额最大的前 10 个商家，并输出他们各自的交易额，并选择合适的图表对结果进行可视化¶

6. 留存分析¶

7. 找到被浏览次数最多的 50 个商家，并输出他们的城市以及人均消费，并选择合适的图表对结果进行可视化¶

相关文章

赞助商

阅读排行

1、以城市为单位，统计每个城市总体消费金额（饼状图）¶

2. 以天为单位，统计所有商家交易发生次数和被用户浏览次数（曲线图）¶