- 数据采集模块 主要采集什么 业务数据和用户行为数据 包括 页面浏览记录,启动记录,错误记录,曝光记录,动作记录 格式包括页面日志和启动日志JSON格式?
- flume怎么采集
-
第一次见没有sink的flume
-
业务数据怎么说?sku商品表 平台表 流水表 退单表 订单详情 优惠券表 省份表 在网上找的数据集
- 用户行为数据怎样由kafka导入到hdfs flume优化 filechannel优化
- 业务数据同步才有增量和全量这个概念
而且这里的增量同步不是新增了什么表拿过来,业务数据库创建时的表几乎就是全部需要用到的表了,不需要建,将同步的数据建成原表拿过来!
- 全量表同步用datax 因为离线方式
每一张表太麻烦,看有什么配置工具。
- 最后把每天的同步脚本写好 写好脚本后要修改配置权限777
遗憾哪里冒出来的kafka 不是MySQL数据库嗎?原来MySQL要将首日表同步到kafka,需要用到Maxwell的boostrap功能 kafka是支持offset的!对于端到端的准确性非常重要!
- 建模理论
- 维度表设计 主维表和相关维表都是事实表
维度属性就是除了主键之外的维度字段 维度属性可从主维表或者相关维表得到!
- 雪花模型和星辰模型
-
数仓分层一共有五层 我已经知道了至少四层!
-
大多数统计需求都是原子指标、派生指标、衍生指标这套模式,大多数派生指标可以复用,作为公共指标,提供效率
汇总表DWs
-
-
ODS层设计
将需要绘制的导出到SQL ADS服务 各种面向主题的报表