首页 > 其他分享 >Hive分层数据处理:从ODS到ADS的实现与应用

Hive分层数据处理:从ODS到ADS的实现与应用

时间:2024-12-15 16:31:53浏览次数:10  
标签:ADS Data ODS Hive 分层 数据 order STRING

在大数据开发中,数据分层处理是常见的架构设计模式,尤其在数据仓库建设中,分层架构便于数据组织和管理,提升开发效率。本文将以Hive为例,详细介绍ODS、DWD、DWS、ADS层的设计与实现。


一、数据分层的意义

  1. 解耦数据流:分层将原始数据、清洗数据、分析数据、应用数据分开,避免耦合。
  2. 提升效率:通过分层复用数据,减少重复计算。
  3. 提高数据质量:每层数据有明确职责,确保质量和一致性。
  4. 便于扩展:新需求可以快速定位到对应的数据层进行处理。

二、分层架构的设计

  • ODS(Operational Data Store):操作数据存储层,存储原始数据,直接从业务系统同步而来,通常保持业务数据的原始格式。
  • DWD(Data Warehouse Detail):数据明细层,对ODS层数据进行清洗、去重、标准化处理。
  • DWS(Data Warehouse Summary):数据汇总层,按主题对DWD数据进行聚合,便于快速分析。
  • ADS(Application Data Store):数据应用层,为业务应用提供具体的统计和分析结果。

三、分层处理的核心逻辑

1. ODS层:原始数据的存储

ODS层主要作用是存储从业务系统同步过来的数据,数据格式和字段保持一致,常见存储方式为分区表。

代码示例
CREATE TABLE ods_order (
    order_id STRING,
    user_id STRING,
    order_status STRING,
    order_amount DOUBLE,
    order_date STRING
)
PARTITIONED BY (dt STRING)
STORED AS PARQUET

标签:ADS,Data,ODS,Hive,分层,数据,order,STRING
From: https://blog.csdn.net/X2829352498/article/details/144488351

相关文章

  • 大数据新视界 -- Hive 数据仓库设计模式:星型与雪花型架构(2 - 16 - 3)
           ......
  • 深入理解 Virtual Threads(虚拟线程)
    Java作为一种流行的编程语言,其生态系统在不断进化,尤其是在最新的版本中引入了许多令人兴奋的功能。本文将为您深入讲解Java的最新技术之一——VirtualThreads(虚拟线程),并探讨其在实际项目中的应用价值。什么是VirtualThreads?VirtualThreads是Java平台为解决高并发问......
  • Hive高级查询
    Hive高级查询更多大数据资源持续更新中。。。一、UDTF之explode函数1、explode语法功能对于UDTF表生成函数,很多人难以理解什么叫做输入一行,输出多行。为什么叫做表生成?能够产生表吗?下面我们就来学习Hive当做内置的一个非常著名的UDTF函数,名字叫做explode函数,中文戏称之......
  • spark将数据输出到hive或mysql中
    hive启动以下服务:start-dfs.shstart-yarn.shmapred--daemonstarthistoryserver/opt/installs/spark/sbin/start-history-server.shhive-server-manager.shstartmetastoreimportosfrompyspark.sqlimportSparkSession"""-----------------------......
  • spark读取hive和mysql的数据
    读取hive数据本质上:SparkSQL访问了Metastore服务获取了Hive元数据,基于元数据提供的地址进行计算启动以下服务:start-dfs.shstart-yarn.shmapred--daemonstarthistoryserver/opt/installs/spark/sbin/start-history-server.shhive-server-manager.shstartmetastore......
  • node.js毕设基于hive线上问诊系统数据仓库 论文+程序
    本系统(程序+源码+数据库+调试部署+开发环境)带文档lw万字以上,文末可获取源码系统程序文件列表开题报告内容一、选题背景关于线上问诊系统数据仓库的研究,现有研究主要集中在系统的功能实现、用户体验优化等方面。专门针对基于hive构建线上问诊系统数据仓库的研究较少。在国......
  • 【原创】将fpspreadsheet的TsWorksheetGrid选择的Cell拷贝为图片
    网友有个很特别的需求:将xlsx文件选定的单元格复制为图形,然后粘贴到其他单元格以保持复制的单元格不变形,需要用execl可以完成这个任务,我选择fpspreadsheet来解决这个问题。TsWorksheetGrid选择的Cell拷贝为图片。已知问题:超出可视范围复制会存在错位的问题。 复制粘贴后: 直......
  • PS923 - Methods and Analysis in Behavioural
    Assessment 2PS923 - Methods and Analysis in Behavioural ScienceAutumn Term 2024 (updated: 2024-12-06)•  This assessment counts for 36% ofyour overall grade.• Submission Instructions: Submit your solution as one html or ......
  • 论文解读-Graph neural networks: A review of methods and applications
     论文介绍这篇论文是图神经网络领域的综述性质的文章,从各个论文里面凝聚和提取了很多精炼的信息和观点,值得一读。论文是2020年成稿投出去的,有点陈旧的。 GNN的介绍在introduction里面对比了GNN和CNN,表示出CNN的关键是局部连接,共享权重,和多层的使用。其中CNN操作的是常规......
  • hive 创建 s3 外表
    背景有个比较大的技术侧需求:将数据从HDFS迁移到s3。当然在真正迁移之前,还需要验证迁移到s3的数据,和上层查询器(hive、presto之间的兼容性)这里我们对一张业务表的数据做个简单的迁移测试验证数据迁移为了让hdfs指令能直接操作s3的数据,参考UsingDistCpwithAmazo......