数据仓库研究
大数据体系
- 日志采集和传输
- 数据建模
- 数据管理
- 数据应用
数据建模
- 日志传输(原始数据)
- ODS(原始数据)
用户基础属性表:imei,prov,city,machine
用户文章下发表:imei,article_id,xiafa_time
用户文章点击表:imei,article_id,dianji_time
文章属性表:article_id,category_id,title - DWS(用户粒度聚合)
用户文章基础属性表:imei,prov,city,machine,article_id,category_id,xiaofa_pv,dianjipv,title,xiaofa_time,dianji_time
用户分类属性表:imei,proy,city,machine,category_id,xiafa_pv,dianji_pv - DM(常规应用)
省份下发点击PV数:prov,city,xiafa_pv,dianji_pv
分类下发点击PV数:category_id,xiafa_pv,dianji_pv
数据管理
- 计算管理:join注意事项,表选择,MR内部原理
- 数据存储管理:核心的表尽量保存的久一点(3个月以上),非核心的表1个月内即可
- 权限管理:分析师往往是管理员权限,所以不要随便给其他人开权限