常见用户特征分析的方法

常见的用户特征分析方法有用户画像分析、聚类分析、监督模型、RFM用户分群。

用户画像分析就是基于大量的数据，建立用户的属性标签体系，同时利用这种属性标签体系描述用户，具体的做法是直接提取用户相关的特征数据（比如年龄、性别、地域、职业等），帮助刻画一个用户。比如，通过用户画像分析刻画出用户大约为18～24岁、一线城市、男性、喜欢玩游戏和看小说，这就是用户群体特征。

聚类分析是一种机器学习方法，聚类分析是将一堆没有标签的数据，提取几个特征，自动划分成几类，常见的聚类分析方法有k-means算法。

k-means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。通过k-means算法可以对用户行为进行聚类，比如，针对用户在淘宝商城买东西的频次、价格、浏览的时长，可以进行聚类分析。

在使用k-means算法的过程中，有一些主要的注意事项。

k-means算法对噪声和异常值非常敏感，这些异常的个别数据对平均值的影响很大。在实际业务中，经常有因为用户刷量或者上报引起的异常数据。异常数据指的就是数据超出正常范围，不能按常理来理解的，比如，一个用户每天在淘宝浏览的时长超过24小时。针对这种异常数据，常用的处理方法有直接删除、随机抽样、数据替换。
数据标准化是聚类分析中必不可少的一个环节，它可以有效化解因为不同的度量单位不一致而带来的数量差异。
在聚类分析中，参与聚类的特征不能太多。如果特征太多，一方面会显著增加运算的时间；另一方面，特征之间本身会具有一定的相关性，会干扰聚类的结果；同时，我们要对每一个小的类别在这些特征上的差异做出描述性和解释性说明，太多的特征会造成划分的类别很难解释，这也不利于业务方的理解。

特征分析中还会使用像决策树这样容易解释的监督模型，决策树最大的应用优势在于其结论非常直观易懂，生成一系列的“如果……那么……”的逻辑判断，让业务方很容易理解和应用。这个特点是决策树被广泛应用的最主要原因，真正体现了简单、直观。

因为决策树是一种分类树模型，假如我们要挖掘付费用户具有的典型特征，就可以构建付费的决策树模型。

首先，提取模型训练的正负样本及这些样本所具有的特征。这里的样本通俗点说就是数据的集合，即一堆数据。比如，正样本是付费的用户，负样本是不付费的用户。这里所说的特征，就是用来表达用户特点的数据。

常见的用户特征分为基础属性特征和行为特征。基础属性特征属于静态特征，短时间内不会发生改变，如用户的年龄、性别、城市、好友数、收入水平、学历、兴趣爱好等；行为特征指的是用户的行为特点，如在游戏中的登录天数、次数、游戏的时长、游戏的局数、单次游戏的时长。

然后，把提取的正样本数据和负样本数据放入决策树模型，决策树基于我们的输入可以学习正样本和负样本所具有的特征，也就是付费的用户及不付费的用户各自具有什么特征。

模型学习的过程就是训练的过程。当模型构建完成时，利用决策树自带的输出功能，就可以输出一系列用户付费和不付费所具有的特点。如“如果用户月登录天数超过16天，且日均游戏时长超过2小时，且游戏等级超过12级则会付费”；如“如果用户月登录天数超过16天，日均游戏时长小于10分钟，则不会付费”。

通过上面的决策树模型，就可以得到付费用户和不付费用户各自具有的特征。

RFM模型是衡量用户价值和用户创利能力的重要工具和手段。在众多的用户关系管理（CRM）的分析模式中，RFM模型以其简单、好解释、容易上手等特点被大多数企业所接纳。

标签：特征,模型,常见,用户,付费,聚类分析,特征分析,决策树
From： https://blog.51cto.com/key3feng/5870408