首页 > 其他分享 >画像体系(三):平台

画像体系(三):平台

时间:2023-08-27 16:45:04浏览次数:28  
标签:体系 存储 数据 标签 平台 用户 横表 画像

  • 一、用户画像基础
  • 二、标签指标体系
  • 三、标签平台管理
  • 四、标签数据开发
  • 五、标签数据存储
  • 六、标签调度推数
  • 七、用户画像系统
  • 八、用户画像应用

三、标签平台管理


 标签平台是一个中间层的服务,为前台提供的是数据支持。另外一方面标签平台的加工,依赖底层的基础数据平台的原始数据

1、新建标签

  • 标签管理平台中,每个标签开发时,首先需要在管理平台上注册,生成标签元数据,然后我们在根据元数据信息在大数据平台进行逻辑加工

2、标签视图与查询

  • 标签视图与查询功能主要面向业务人员使用,标签视图版块中,层级化地展示了目前正在使用的全部用户标签。方便应用方点击查看每个标签的详细情况

3、标签管理

  • 标签管理,是用户画像是开发的起点,所有的用户画像都起始于对标签的定义和规则的指定。
  • 标签管理是基于标签整个生命周期进行管理。
  • 标签的生命周期包括“标签创建、标签审核、标签上线、标签评估、标签变更、标签下线”六个部分。

四、标签数据开发


1、标签开发流程

     标签的开发在hive库完成,因为标签的模型体系是基于数据仓库而来,所以大致流程也和数据仓库的开发流程类似,具体工作流程如下:

 

2、标签表模型设计

    表结构设计也是画像开发过程中需要解决的一个重要问题。表结构设计的重点是要考虑如下这3个方面的问题。 

  • 存储哪些信息、
  • 如何存储(数据分区)、
  • 如何应用(如何抽取标签)

不同业务背景有不同的设计方式:

 2.1 横表

     以Hive为例,我们最常用的就是横表,也就是一个 key,跟上它的所有标签。横表的问题:

  • 由于用户的标签会非常多,而且随着用户画像的深入,会有很多细分领域的标签,这就意味着标签的数量会随时增加,而且可能会很频繁。
  • 不同的标签计算频率不同,比如说学历一周计算一次都是可以接受的,但是APP登录活跃情况却可能需要每天都要计算。
  • 计算完成时间不同,如果是以横表的形式存储,那么最终需要把各个小表的计算结果合并,此时如果出现了一部分结果早上3点计算完成,一部分要早上10点才能计算完成,那么横表最终的生成时间就要很晚。
  • 大量空缺的标签会导致存储稀疏,有一些标签会有很多的的缺失,这在标签用户画像中很常见,主要是当标签数据量开始快速增加的时候会遇到的问题。

 2.2 竖表

   竖表其实就是将标签都拆开,一个用户有多少标签,那么在这里面就会有几条数据。竖表能比较好地解决上面宽表的问题。但是它也会带来了新的问题,

  • 比如说多标签组合的查询需求:“我们想看年龄在23-30之间,月薪在10-20k之间,喜欢听古典音乐的女性”,这种多标签查询条件组合情况在竖表中就不太容易支持

2.3 横表+竖表

   如前面所分析,竖表和横表各有所长和所短,那么能不能两者结合呢?

  这其实也要考虑横表和竖表的特性,整体来讲就是竖表对计算层支持的好,横表对查询层支持的好。那么设计的化就可以这样:

  •  

 3、 标签开发

  • 统计类标签:是最为基础也最为常见的标签类型,例如,对于某个用户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。
  • 规则类标签:基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定。
  • 机器学习挖掘类标签:通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。例如,根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。

 

五、标签存储


1、Hive存储 

  • Hive是最基础的存储,主要存储标签计算结果集,跑spark作业或MapReduce作业,处理大量的数据集时使用。

2、Mysql存储

  • 存储一些数量级较少的标签。
  • MySQL的读写不用跑mapreduce作业,对于小量的数据读写速度很快。
  • 用于存储元数据、标签量级的监控、一些表加工结果的状态位、业务系统中读取的一些数据。

3、HBase存储

  • 存储线上推荐给用户的实时性较强的数据,在画像产品化章节中有讲到圈人服务,业务方根据规则圈定人群后进一步通过分析明确该人群是其要运营的人群后,将该人群推送到相应的业务系统中,有的业务系统使用hbase提供服务。如广告系统、push消息系统等。

4、Elasticsearch存储

  • 人群计算、人群多维透视分析

六、标签调度推数


 在用户画像工程化调度中主要涉及到的环节/模块:

1、标签调度:

  • 主要的调度任务,负责每天调度计算用户身上的标签,插入对应的标签表中;

2、标签校验:分为多个模块。

  • ①校验每天插入hive表中的标签数据是否出现异常;
  • ②校验同步到hbase、关系数据库中的标签数据是否和hive中标签数量级一致;
  • ③校验“圈人功能”中计算出来人群对应的标签是否出现异常波动;

3、数据同步:

  • 将用户标签同步到hbase、MySQL等关系数据库的业务系统中。这算是数据服务层的任务;

4、人群计算:

  • 根据产品端业务人员圈定的用户标签组合,计算对应的人群。计算任务使用MapReduce或spark作业将数据插入到hive中,然后同步到对应的业务系统中;

5、通知邮件:

  • 数据插入到hive、hbase或关系数据库后校验标签的数量级或波动情况。如超出正常范围则触发报警邮件标签调度推数。

参考:


 

标签:体系,存储,数据,标签,平台,用户,横表,画像
From: https://www.cnblogs.com/tgzhu/p/17647588.html

相关文章

  • 画像体系(二):标签
    一、用户画像基础二、标签指标体系三、标签平台管理四、标签数据开发五、标签数据存储六、标签调度推数七、用户画像系统八、用户画像应用二、标签指标体系 构成用户的标签可以是多种多样的,也应该能够渗透到丰富的业务场景中去,因而标签就需要兼顾广泛性和精确性,这就......
  • 画像体系(四):系统
    一、用户画像基础二、标签指标体系三、标签平台管理四、标签数据开发五、标签数据存储六、标签调度推数七、用户画像系统八、系统搭建示例七、用户画像系统 自建用户画像系统是互联网企业、在转型的传统企业必经之路。画像系统一方面用于企业精细化运营,提高客单价,通......
  • B2C电商综合品类平台设计与实现-计算机毕业设计源码+LW文档
    B2C电商综合品类平台设计与实现-计算机毕业设计源码+LW文档摘 要随着信息技术的发展,基于web模式的购物系统逐渐普及,网上购物是一种新型的商务模式,其工作流程和经营模式受到了欢迎。电子商务可以适应现代化快节奏的生活方式,满足各类人群足不出户的在线购物,利用商城使得买卖双方......
  • Android平台RTMP|RTSP直播播放器功能进阶探讨
    我们需要怎样的直播播放器?很多开发者在跟我聊天的时候,经常问我,为什么一个RTMP或RTSP播放器,你们需要设计那么多的接口,真的有必要吗?带着这样的疑惑,我们今天聊聊Android平台RTMP、RTSP播放器常规功能,如软硬解码设置、实时音量调节、实时快照、实时录像、视频view翻转和旋转、画面填充......
  • 云盘转NAS,云盘转化为本地磁盘,跨平台跨设备同步
    背景一直对软路由硬件J4125之类的痴迷,想要它虚拟出另外一个系统实现NAS本地云存储的功能,可是碍于广大群众对这种集成方案的实用性、稳定性、低维护性产生实践中的顾虑和问题,更倾向于独立的NAS硬件。我也一直在思考NAS在日常生活中除了备份旧文件用处的其他实用性考究。音乐文件......
  • 智慧工地云平台:聚集智能技术,实现建筑工地智慧管理。
    智慧工地源码智慧工地云平台是将云计算、大数据、物联网、移动技术和智能设备等信息化技术手段,聚集在建筑工地施工管理现场,围绕人员、机械、物料、环境等关键要素,建立智能信息采集、高效协同管理、数据科学分析、过程智慧预测,最终实现建筑工地的智慧管理。智慧工地的特点是以业务为......
  • 项目工程云平台源码 智慧工地管理 劳务管理、质量安全数据预警、施工现场视频实时监控
    5G智慧工地管理项目工程云平台源码通过运用物联网、大数据、云计算、BIM、5G等技术,搭建由劳务管理、质量安全数据预警、施工现场视频实时监控、重大危险源和绿色文明施工监控等板块构成的模块化、一站式的信息化管理平台。平台可实现施工现场数据采集、数据综合统计及分析、手机A......
  • 一、MySQL体系结构和存储引擎
    一、MySQL体系结构和存储引擎1.1定义数据库和实例数据库:物理操作系统文件或其他形式文件类型的集合。在MySQL数据库中,数据库文件可以是frm、MYD、MYI、ibd结尾的文件。实例:MySQL数据库由后台线程以及一个共享内存区组成。共享内存可以被运行得后台线程所共享。需要牢记的是,......
  • 项目学习 鱼皮 API 开放平台 stateful-backend 项目总结
    项目介绍用户中心功能介绍提供了一套基于Session的用户中心,提供以下功能登入登出注册用户信息管理增删改查登录用户查询ID查询列表查询分页查询用户态记录数据库表createtableuser(idbigintauto_incrementcomment'id'......
  • Java智慧工地APP监管平台源码带AI识别功能
    智慧工地为建筑全生命周期赋能,用创新的可视化与智能化方法,降低成本,创造价值。一、智慧工地APP概述智慧工地”立足于互联网+,采用云计算,大数据和物联网等技术手段,针对当前建筑行业的特点,结合建筑企业信息化工作的需求,以建设工程为核心,以建筑行业企业、人员,项目信息库为基础,搭建智......