首页 > 其他分享 >得帆云学习笔记

得帆云学习笔记

时间:2024-06-07 15:44:54浏览次数:19  
标签:数仓 开发人员 业务 笔记 学习 数据表 维度 得帆云 数据

数仓规划

数仓规划是开发人员对业务的解析、分类和提炼的过程。
数仓开发人员需要根据对整体业务的理解来划分出不同业务领域、业务领域下对应的数据域、以及数据域下的业务过程。
根据业务的类型或其他特征来划分业务领域。
根据该业务下再细分出的类别来划分数据域。
根据业务中的业务活动来确定不同业务过程。
最后,数仓开发人员需要根据具体的需求把不同业务过程中产生的数据进行分层提炼,确定出所需要的数据

例如:
工厂下设生产和制造部门和销售和市场部门。在生产和制造部门中会涉及到物料管理、产品管理、库存管理,而在销售和市场部门会涉及到订单管理和物流管理。在物料管理下,又可根据其实际的生产活动,可分物料的采购、生产消耗两个业务过程。在产品管理下,又有生产的业务过程。在库存管理下,会有物品的入库、出库等业务过程。在订单管理下,根据其具体实际的生产活动,有产品销售这一业务过程。在物流管理中,有货物运输这一业务活动。根据上述的业务场景可作如下分析:

在完成对业务的整体场景进行划分之后,数仓开发人员要对业务的生产活动产生的数据进行ETL处理,视具体情况,建立不同的分层(最少应有三层),且下层的数据不可逆向上层。可参考下图:

数据开发

数据开发是数仓开发人员将业务场景中的不同业务活动产生的数据进行ETL处理,提炼出所需要的数据的过程。在得帆云中,项目是基于数据域,对数据开发任务进行管理、开发的基本的单元,即数据的开发任务要挂载在项目上进行。

在得帆软云下,可按作业类型,分为离线作业和实时作业。
① 实时作业可以不停止的从数据源抽取数据,并进行简单过滤处理。若任务对数据的时效性要求较高(如数据大屏),可使用实时作业。
② 对数据的时效性要求不是很高,数据源更新周期长,且数据的量较大,可使用离线作业,定时处理数据。
数仓开发人员可根据具体情况下选择作业类型。

离线作业的开发逻辑要符合基于当前所挂载的数据域的数据分层结构。建立对应的分层结构,在对应的分层中实现数据表的建立和数据的ETL工作。

在数据开发过程中产生的表结构,可在表管理中对数据表的信息进行查看,对数据表中的数据进行预览。

维度建模是用于设计数据仓库的模型,用于支持数据分析和报告。这种模型通过组织数据成维度表和事实表的结构,使得用户能够以直观的方式理解和查询数据。

事实表是数据仓库中存储了业务过程中产生的事实性数据的表格。它包含了数值性能度量或事实,例如销售额、数量、利润、点击次数等,这些数据通常是可以被聚合、分析和计算的。
如下图所示销售事实表:

维度表是数据仓库中存储描述业务对象的结构化信息的表格,它包含了用于分析的各种维度的详细信息。
维度表通常包含描述业务过程中的人、地点、时间、产品或事件等的属性。这些表格通常具有清晰的层次结构,用于帮助用户理解和分析数据。
如下图所示产品维度表:

数据质量
通过得帆云的数据质量可建立模型来对指定数据域下的业务过程中的数据表中的数据进行检查。

规制的类型包括:空值检查、值域检查、规范检查、重复数据检查。

通过创建质量模型,运行质检方案可以检测指定数据表中不符合规制的数据,并对数据质量做出评分。

标签:数仓,开发人员,业务,笔记,学习,数据表,维度,得帆云,数据
From: https://www.cnblogs.com/leo130-blogs/p/18237305

相关文章

  • 学习前端3DThreejs一篇就够了,从入门到实战
    vue安装three.jsnpminstall--savethree引入three.jsimport*asTHREEfrom'three'three.js结构### three.js坐标创建一个场景scene场景,camera相机,renderer渲染器创建一个场景this.scene=newTHREE.Scene()创建一个透视摄像机this.camera=newTHR......
  • 推荐系统三十六式学习笔记:原理篇.内容推荐07|人以群分,你是什么人就看到什么世界
    目录协同过滤基于用户的协同过滤背后的思想原理实践1、构造矩阵2、相似度计算3、推荐计算4、一些改进应用场景:总结谈及推荐系统,不得不说大名鼎鼎的协同过滤。协同过滤的重点在于协同,所谓协同,也就是群体互帮互助,互相支持是群体智慧的体现,协同过滤也是这般简单直接,历......
  • 简单的模型训练学习
    一、操作流程加载数据集数据预处理:将输入输出按特定格式拼接文本转TokenIDs通过labels标识出哪部分是输出(只有输出的token参与loss计算)加载模型、Tokenizer定义数据规整器定义训练超参:学习率、批次大小、...定义训练器开始训练注意:训练后推理时,输入数据的拼接方......
  • Diffusers代码学习: IP-Adapter(续)
    但是IP-Adapter不仅可以通过文生图的方式,也可以通过图生图的方式生成目标图片,就无需使用提示词。只不过同上一篇所述,底层的逻辑和图生图是完全不同的。# 以下代码为程序运行进行设置,使用图生图的自动管道,importosos.environ["HF_ENDPOINT"]="https://hf-mirror.com" ......
  • k8s学习--ingress详细解释与应用(nginx ingress controller))
    文章目录lngress简介什么是IngressIngress的用途Ingress的工作原理Ingress的工作流程Ingress的应用场景应用实验环境部署nginxingresscontroller1.安装metalLB2.nginxingresscontroller部署3.ingress对象应用案例(基于名称的负载均衡)(1)创建deployment控制......
  • AI 绘画零基础如何学习?AIGC绘画设计入门教学
    AI作画入门到是不难,有手就行。我们先从最简单的开始。完成这件事,只有一个步骤:找到一个能画画的AI工具,输入动机。这个工具叫做DiscoDiffusion。它只认识英文,不过这不是问题,你找个翻译软件把中文翻译成英文就行。如果你会科学上网,那么你打开这个网址,点击里面的"openincola......
  • Linux磁盘管理-LVM入门学习建议
    Linux磁盘管理-LVM入门学习建议准确掌握基础概念基础概念非常重要,以LVM逻辑卷为例,必须熟练掌握LV、PV以及VG的基本概念。之后才能进行更为复杂的管理操作。LVM基本大纲这里罗列出了学习LVM入门的基本大纲,供大家参考......
  • 读书笔记分享
    1.绝大多数父母都是爱孩子的,可他们却不是称职的父母。世界上任何职业都要培训、考核、竞争上岗,唯有“父母”这个职业是没有这些程序,只要生了小孩,就是天经地义的父母。2.由于自身工作特点,“白领”们的部分器官和组织,如脑组织、视觉神经、颈椎等经常处于过度紧张状态,如果不......
  • 机器学习算法(一):1. numpy从零实现线性回归
    系列文章目录机器学习算法(一):1.numpy从零实现线性回归机器学习算法(一):2.线性回归之多项式回归(特征选取)@目录系列文章目录前言一、理论介绍二、代码实现1、导入库2、准备数据集3、定义预测函数(predict)4代价(损失)函数5计算参数梯度6批量梯度下降7训练8可视化一下损失总结前......
  • Java学习【深入探索包装类和泛型】
    Java学习【深入探索包装类和泛型】......