首页 > 其他分享 >数据及报表概况

数据及报表概况

时间:2023-08-16 21:55:51浏览次数:26  
标签:报表 用户 概况 日志 数据 id ETL

数据及报表概况

数据概况

由于是模拟日志,因此日志包含的信息是已知可控的。如果是生产场景的话,是需要进行ETL的,即需要从多个业务系统抽取数据到数仓。ETL的工作包含:数据探索、ETL策略、数据映射和存储过程开发。

  • 数据探索:从技术上看,业务系统的数据库信息、库表信息、字段信息可能是模糊的。从业务上看,数据的业务属性也是需要了解的。这就是数据探索需要做的事情。
  • ETL策略:ETL策略是指抽取数据的方法,现在一般有四种策略。
    • Delete/Insert:全量删除再插入
    • Update/Insert:有更新的数据直接更新,新增的直接插入
    • History Chain历史拉链表:表内新增两个字段dw_begin_dt、dw_end_dt。将新增和有更新的数据插入成新记录;将有更新的数据之前的记录的dw_end_dt改为今天,形成数据封口。
    • Append:仅插入新数据。
  • 数据映射:指将业务系统的模型映射到目标表模型。
  • 存储过程开发:泛指一种通用抽取方式的开发。

以下介绍模拟日志的日志数据结构:

{
	"eventid": "viewConentDetailEvent",  //事件类型id
	"event": {							 //事件
		"pgId": "986",					 	//页面id
		"contentType": "",					//内容类型
		"contentID": "00589",				//内容id
		"contentTile": "",					//内容标题
		"contentChannel": "",				//内容频道
		"contentTag": ""					//内容标签
	},
	"user": {							 //用户
		"uid": "365505",					//用户id
		"account": "",						//用户账号
		"email": "",						//用户邮箱
		"phoneNbr": "13287919711",			//用户手机号码
		"birthday": "",						//用户生日
		"isRegistered": "",					//是否已注册
		"isLogin": "",						//是否登录
		"addr": "",							//地址
		"gender": "",						//性别
		"phone": {							//设备
			"imei": "9569635641825837",			//imei
			"mac": "2f-93-d1-e4-5e-35-36",		//mac
			"imsi": "1706694213462619",			//imsi
			"osName": "android",				//操作系统名称
			"osVer": "10.0",					//操作系统版本
			"androidId": "4748e3fbf764a8ad",	//安卓id
			"resolution": "800*600",			//分辨率
			"deviceType": "HUAWEI_RY8",			//设备类型
			"deviceId": "",						//设备id
			"uuid": "sarSfmG2p7RFG1z3"			//uuid
		},
		"app": {						    //app
			"appid": "com.51doit.mall",			//appid
			"appVer": "2.1.9",					//app版本
			"release_ch": "优亿市场",			 //渠道
		},
		"loc": {
			"areacode": 410212100,			//地理位置
			"longtitude": 114.44494017474185,	//经度
			"latitude": 34.754326317620627,		//维度
			"carrier": "ISP05",
			"netType": "WIFI",
			"cid_sn": "717218244878",
			"ip": "182.162.105.105"
		},
		"sessionId": "sid-f0c05e1b-1f41-458e-bd3e-52a011ff43e5"
	},
	"timestamp": "1692168026000" 			//访问时间戳
}

报表概况

标签:报表,用户,概况,日志,数据,id,ETL
From: https://www.cnblogs.com/nangk/p/17636292.html

相关文章

  • ChatDB: 使用数据库符号存储提升LLMs的性能
    ChatDB论文地址ChatDB项目地址Abstract采用符号记忆的方式辅助大模型的多跳推理。符号记忆框架具化为LLM和一系列SQL数据库,LLM生成SQL指令去控制SQL数据库ChatDB整体架构:1.IntroductionLLM发展的过程也会遇到一系列的挑战,比如:生成token多,需要考虑上下文信息,可能会导致......
  • 项目概况与技术方案
    项目概况与技术方案概述​ 该项目是一个针对用户行为日志分析的T+1离线数仓项目;通过构建数仓分析,了解用户的活跃情况、交互情况、流量概况等信息。数仓通过云服务器集群进行部署,开发后端程序提供服务接口。参考《大数据之路:阿里巴巴大数据实践》,该数仓构建了ODS层、DWD层、DWS......
  • 数据库表关系(一对一,一对多,多对多)
    一、1、一对一:         一个人只能有一个身份证号,不能有多个,是唯一的IdNameCard1张三140702**********012李四140702**********79 2、一对多:     一个年级可以有多个班级,多个班级都属于一个阶段 一个班可以有......
  • Matlab蛇群算法(SO)优化双向长短期记忆神经网络的数据分类预测,SO-BiLSTM分类预测,多输
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • Matlab麻雀算法(SSA)优化双向长短期记忆神经网络的数据分类预测,SSA-BiLSTM分类预测,多
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • C# 的数据类型
    在C#中,变量主要分为三种类型:值类型,引用类型,指针类型1、值类型值类型变量可以直接分配给一个值,直接包含数据(如 int、char、float,它们分别存储数字、字符、浮点数)特点:当声明一个值类型时,系统分配内存来存储值C#中可用的值类型:Java中有8大基本类型,C#中都含有,就是bool与b......
  • 如何在达梦数据库中追踪慢SQL
    在达梦数据库中,我们可以通过开启日志记录和设置最小执行时间来追踪慢SQL。下面是具体的步骤:1.修改dm.ini文件使用以下命令编辑dm.ini文件:cd/home/dmdba/dmdbms/data/DAMENG/vimdm.ini在dm.ini文件中找到以下两个参数并进行修改:SVR_LOG_NAME=SLOG_ALLSVR_LOG=1......
  • openlens界面上不显示相关监控指标数据的问题处理
    问题如下图截图:出现的原因:由于"Metrics"面板里的"PEOMETHEUS"属性未选择到“PrometheusOperator”造成无法获取数据指标解决方法只要打开选择PrometheusOperator即可......
  • Golang之数据库转换结构体工具table2struct
    另外一个根据json生成对应结构体在线工具: https://mholt.github.io/json-to-go/ 安装:gogetgithub.com/gohouse/converter或者下载对应平台的二进制文件https://github.com/gohouse/converter/releases 引入该包进行转换的使用方式可以参考github上的使用示例,为......
  • java配置数据库
    server:port:8888spring:datasource:driver-class-name:com.mysql.cj.jdbc.Driverurl:jdbc:mysql://localhost:3306/ri?useUnicode=true&characterEncoding=utf8&zeroDateTimeBehavior=convertToNull&useSSL=true&serverTimezone=GMT%2......