目录
0 引言
在用户行为分析中,我们往往需要对用户浏览行为进行分析或获客的渠道进行分析,在埋点日志中用户一个session中会浏览不同的界面,会进行url的跳转,在前端埋点时,往往将用户刚进入界面时的url进行存储,后续在当前页面内的url不会重复存储,这样就会造成大量的空值存在,在数仓建设中我们在dwd层往往需要对数据进行清洗,希望通过对缺失值填充,以满足后续分析的需要。针对用户浏览渠道的缺失,我们往往采用获取当前用户当前行最近的一条数据进行填充,下面我们将该问题进行抽象,模型化,来详细讲解该类问题的处理思路。
1 问题描述
如下图所示,有一张埋点事件表(event),表中渠道id存在部分为空的数据,现在根据如下规则将缺失的数据补充完整。
规则:将渠道id为空的,补充为该用户最近一个不为空的渠道id
user_id |