目录
数据标签体系
什么是数据标签体系
数据标签体系:通过多个维度,对实体的标签按照规律组合形成的体系。
⭐ 以用户标签体系为例:用户的数据标签体系即是对用户多个维度形成的标签,进行组合形成的体系。例如:用户的社会属性标签、用户的消费习惯标签、用户的爱好标签等,这些标签聚合在一起,即形成了用户的数据标签体系。
数据标签的分类
按照计算方式分类
- 统计类标签:主要是根据实体的数据,通过统计手段得到的特征提取后的标签。例如用户标签的近7日活跃时长,用户常用软件等,都是可以通过统计得出。
- 规则类标签:规则类标签是根据实体数据,通过数据分析人员以经验对数据按照指定规则划分得出的标签。例如用户日志的ip数超过3个即为多IP用户的数据标签、用户消费超过3000元即为高付费用户。
- 模型类标签:模型类标签,是基于实体数据通过机器学习方法对实体数据的预测分类标签。例如:通过聚类算法,以用户的历史数据对用户进行自动分类,然后对分类提取标签。
按照更新时间分类
- 离线标签:离线标签通常是隔天更新。例如用户的常用IP数,常用软件等就可以作为离线标签,定时更新维护。在日后通过标签对用户进行分析。
- 实时标签:实时标签通过是实时更新。例如用户标签的风险访问行为,即可以作为实时标签,实时描述用户的行为是否具有风险。
数据标签体系与用户画像
数据标签与用户画像的关系
数据标签是对实体数据通过提取分析,得出分类标签,在应用到实体上。用户数据标签则是对用户数据进行提取分析,得出的用户标签。而用户数据标签是用户画像的基础和前提,用户画像是用户数据标签体系的应用场景之一。
如何构建常见审计平台的数据标签体系
构建数据标签体系的流程
- 1、明确业务需求
- 主要是明确数据标签体系的运用场景:以用户标签为例:是运用到智能触及、还是用户分层、或是个性推荐等其他场景。
- 2、制定数据标签基础框架
- 主要是明确数据标签的提取计算框架和存储架构,以及数据标签的层级,至少应该包括一级标签和二级标签。
- 3、确定标签维度&统计口径
- 明确数据标签的统计维度、对于规则类的标签需要指定统一的计算口径。
- 4、统计、规则、模型类标签开发
- 主要是开数据标签体系
- 5、标签上线&应用
- 通过标签体系,对1业务方需求提出的运用场景进行应用,并检验标签的真实有效性。
如何构建常见审计平台的数据标签体系
针对审计平台的数据,怎样构建审计平台的数据标签体系?
通过上述对数据标签体系的描述介绍,以及如何构建数据标签体系,可以按照构建数据标签体系的流程一步步构建审计平台的数据标签体系。
- 1、明确审计的数据实体
- 常见的审计平台目前的数据实体大体可以分为:用户、主机/资源、应用、网络等。其中用户实体的数据有用户登录日志数据、用户认证数据、用户操作日志数据等。主机/资源实体数据有主机监控日志数据、资源监控日志数据等。应用实体数据有:应用流量分析日志数据。网络实体数据有:主机网络日志数据。
- 2、根据数据实体分类数据标签
- 根据不同的数据实体,将标签分为:用户数据标签体系、主机/资源标签体系、应用标签体系、网络标签体系。
- 3、制定标签基础框架
- 根据不同的标签体系,首先明确标签存储架构,采用关系型数据库或是文档型数据库存储标签体系,依赖于实体数据的量级和标签应用的场景是实时或者延时。如果实体的数据量级非常大,且是实时应用场景,那么存储实体标签的数据库就要考虑性能和效率问题,因为标签应用的并发性非常高,一条实体数据就意味着需要对其进行标签应用检测。这里推荐使用文档性数据库存储。否则推荐使用关系型数据库。
- 其次是指定计算框架,常见的小型审计平台通常采用es存储实体数据。
- 规则型的标签:首先可以对实体数据的聚合特征进行分析,结合经验制定规则对实体数据进行标签分类。
- 统计型标签:则是以实体数据为主体,通过es的聚合查询得出实体的特征,再将其特征结果按照用户主体对用户进行标签。
- 模型型标签则是通过机器学习对实体数据进行自动分类标签。
- 4、明确标签的计算口径
- 这里主要是规则类标签,常见的审计平台在对实体的聚合特征分析指定标签时,需要对外提供统计的计算口径。避免造成系统数标签不一致的问题。
- 5、标签的开发&上线应用
- 标签的开发:针对统计和规则类标签,可以使用Java后台进行开发,指定标签存储架构,对分类标签的开发方案按照实时或离线计算具体设计不统计的开发方案。模型性标签则可以使用python使用机器学习对数据进行计算,再通过平台对计算结果进行分析总结得出分类标签。
- 标签的应用:标签的应用取决于一开始对业务方或者产品对于实体标签的需求和应用场景,没有明确需求和应用场景,标签的应用场景都是虚而不实。
数据标签在审计平台中应用场景
审计平台用户标签体系应用
数据标签体系之用户风险行为预测
要将用户标签体系运用到用户的风险行为分析中,在用户数据标签体系中,这属于用户分层的应用场景。下面从标签的三种分类进行讨论,考虑如何开发出适合审计平台的用户分层标签。
- 统计类用户标签开发
- 1、建立用户标签库
- 2、针对用户访问日志,以用户的常用IP、浏览器、软件为例,进行查询统计,对用户建立统计标签:用户A:常用IP地址、常用浏览器、常用软件。针对认证日志,可以统计用户近七日认证成功比例。用户A:近七日用户访问成功比
- 规则类用户标签开发
- 1、建立特征标签库
- 2、针对用户访问日志,基于经验对访问流量大于>1Gbi的用户划分为高流量用户标签
- 模型类用户标签开发
- 基于KNN算法对用户历史访问和认证访问日志数据进行聚类分析,使用分类结果,分析用户访问行为。
有了上述的标签库,对用户访问日志产生的新数据,我们就可以以标签库,对用户的新数据进行离线或者实时标签分类,然后运用到后面的风险行为分析。一旦用户的新数据,不属于该用户的标签,那么该用户的新数据则表示用户正在进行一个非常规的操作,就可以对于该数据进行告警或者记录
标签:体系,认识,标签,实体,用户,应用,数据 From: https://www.cnblogs.com/wa1l-E/p/17169057.html