首页 > 其他分享 >数据湖技术架构

数据湖技术架构

时间:2024-12-17 14:24:21浏览次数:9  
标签:存储 架构 摄入 技术 Apache 格式 数据 转换

  1. 数据摄入层

    • 数据收集方式
      • 批量摄入:这是一种常见的数据摄入方式,适用于将大量的历史数据或周期性产生的数据导入数据湖。例如,企业可以每天、每周或每月将业务系统(如ERP、CRM)中的数据以文件(如CSV、Parquet)或数据库备份的形式批量导入数据湖。这种方式可以利用ETL(抽取、转换、加载)工具,如Apache NiFi、Sqoop等来实现。
      • 实时摄入:对于需要及时处理的数据,如物联网设备产生的数据流、社交媒体的实时消息等,采用实时摄入方式。消息队列系统(如Apache Kafka、RabbitMQ)在其中起到关键作用,它们可以接收来自各种数据源的消息,并将其暂存,以便后续的数据处理组件能够实时地从消息队列中获取数据并进行处理。
    • 数据适配与转换(可选):在数据摄入过程中,可能需要对数据进行一些初步的适配和转换。这包括数据格式的统一(如将不同日期格式的数据转换为统一的ISO格式)、编码转换(如将不同字符编码的数据转换为UTF - 8)等。一些数据摄入工具提供了简单的转换功能,如Apache NiFi的处理器可以实现数据的简单清洗和转换操作。
  2. 存储层

    • 存储系统选型
      • 分布式文件系统:这是数据湖存储的核心组件,如Hadoop分布式文件系统(HDFS)是一种广泛使用的分布式存储系统。它将数据分割成块,并存储在多个节点上,具有高可靠性、高扩展性和容错性。数据以文件的形式存储在HDFS中,支持各种数据格式,包括结构化(如存储在文件中的关系型数据)、半结构化(如JSON、XML文件)和非结构化(如文本、图像、视频)数据。
      • 对象存储:云存储中的对象存储服务(如亚马逊S3、阿里云OSS)也常被用于数据湖存储。对象存储将数据作为对象进行管理,每个对象都有唯一的标识符、数据和元数据。它具有高可扩展性、低成本和易于管理的特点,适合存储海量的各种类型的数据,并且可以通过简单的RESTful API进行访问。
    • 数据存储格式
      • 原生格式存储:数据湖的一个重要特点是能够以数据的原生格式进行存储。例如,对于日志文件,可以直接存储原始的日志文本;对于数据库备份,可以存储为原始的数据库文件格式。这种方式保留了数据的原始性,方便后续根据不同的需求进行灵活处理。
      • 列式存储格式:对于结构化数据,列式存储格式(如Parquet、ORC)越来越受到青睐。这种格式在存储时将数据按列进行存储,相比于传统的行式存储,在进行数据分析时,特别是涉及到只对部分列进行查询的情况,可以大大减少数据的读取量,提高查询效率。
  3. 数据处理层

    • 批处理框架
      • Apache Spark:这是一个功能强大的大数据处理框架,支持大规模的批处理操作。它可以读取数据湖中的数据,进行复杂的数据清洗、转换、聚合等操作。例如,利用Spark的DataFrame API,可以方便地对存储在数据湖中的结构化数据进行处理,通过编写SQL - like的代码实现数据的过滤、分组、排序等操作。
      • Hadoop MapReduce:这是早期大数据处理的经典框架,虽然在某些场景下逐渐被Spark等框架替代,但在一些对稳定性和简单性要求较高的批处理任务中仍然有应用。它通过将数据处理任务分解为Map(映射)和Reduce(归约)两个阶段,实现对大规模数据的并行处理。
    • 流处理框架
      • Apache Flink:专注于流数据处理,能够实时处理来自数据湖的数据流。它支持事件时间处理,这对于处理乱序的实时数据非常重要。例如,在处理物联网设备的实时数据时,Flink可以根据数据中的时间戳准确地处理数据,进行实时的数据分析,如实时监控设备状态、检测异常等。
      • Apache Kafka Streams:它是构建在Kafka消息队列之上的轻量级流处理库。它允许开发人员直接在Kafka主题上进行流处理操作,如过滤、转换、聚合等。这对于已经使用Kafka作为数据摄入组件的数据湖来说,是一种方便的流处理解决方案。
  4. 数据目录与元数据管理层

    • 数据目录构建
      • 数据资产发现:数据湖中有大量不同类型的数据,需要一个数据目录来帮助用户发现和理解这些数据。数据目录工具(如Apache Atlas)可以扫描数据湖中的存储系统,发现各种数据资产,包括文件、数据库表等,并记录它们的位置、格式、大小等基本信息。
      • 数据分类与标记:对数据进行分类和标记,以便更好地管理和使用。例如,可以根据数据的来源(如来自哪个业务系统)、数据的主题(如销售数据、客户数据)、数据的敏感程度(如机密数据、公开数据)等对数据进行分类和标记。
    • 元数据管理
      • 元数据存储与维护:元数据包括数据的定义、数据之间的关系、数据的来源和处理历史等信息。建立元数据存储库,用于存储和维护这些元数据。可以使用关系型数据库或图数据库来存储元数据,例如,利用图数据库可以更好地表示数据之间的复杂关系,如数据血缘关系(数据是如何从原始数据源经过处理到达当前状态的)。
      • 元数据访问与共享:提供接口,方便用户访问和共享元数据。数据科学家、数据分析师等用户可以通过查询元数据来了解数据的详细情况,从而更好地进行数据分析和挖掘。例如,通过元数据可以知道某个数据集的更新频率、数据质量指标等信息。

标签:存储,架构,摄入,技术,Apache,格式,数据,转换
From: https://www.cnblogs.com/java-note/p/18612329

相关文章

  • 湖仓一体技术架构
    统一存储层存储系统选型:通常基于分布式文件系统,如HadoopHDFS,具有高可扩展性和容错性,能应对大规模数据存储。也常采用云存储,如AWSS3,提供了按需扩展的存储资源。数据格式支持:支持多种数据格式,结构化数据可采用Parquet、ORC等列存储格式,提升查询性能;半结构化数据以JSON、XML等格......
  • 大数据安全架构
    身份认证与访问控制多因素认证:采用多因素认证机制,如密码、手机验证码、指纹或面部识别等组合,增加用户身份认证的安全性。基于角色的访问控制(RBAC):通过将权限与特定角色关联,根据用户的角色分配相应的访问权限,实现数据的细粒度访问控制。访问审计与跟踪:记录用户的访问行为,包括访......
  • 什么是数据仓库,数据仓库的架构、数据仓库的特点以及数据仓库的应用场景
    定义与概念数据仓库是一个用于存储和管理企业数据的系统,它是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库的目的是为企业的决策支持系统(DSS)提供数据支持,帮助企业管理者进行战略决策。例如,一家连锁超市的数据仓库可以围绕销售主题、库存主题、顾客主题等......
  • 什么是数据湖,数据湖的架构、数据湖的特点以及数据湖的应用场景
    定义与概念数据湖是一个存储企业的各种各样原始数据的大型存储库,这些数据包括结构化数据(如关系数据库中的表)、半结构化数据(如XML、JSON文件)和非结构化数据(如文本文件、图像、音频、视频)。数据湖的目的是存储所有数据,而不对数据进行过多的预先处理,保留数据的原始性和完整性,以便......
  • 什么是湖仓一体,湖仓一体的架构、湖仓一体的特点以及湖仓一体的应用场景
    定义与概念湖仓一体(DataLakehouse)是一种将数据湖和数据仓库的优势相结合的新型数据架构。它既具备数据湖的灵活性和可扩展性,能够存储各种类型的原始数据,又拥有数据仓库的数据管理和数据分析能力,像数据仓库一样提供高效的数据处理、数据治理和数据安全保障机制。湖仓一体......
  • 11.30 每日总结(大数据)
    今天在搞大数据的大作业。另外熟悉了一下linux命令学习时长2小时 下面给出我的文档(图片好像粘贴不了了) 1)cd命令:切换目录(1)      切换到目录“/usr/local”(2)      切换到当前目录的上一级目录(3)      切换到当前登录Linux系统的用户的自己的主文件夹......
  • 数据仓库硬件资源测算参考案例
    数据存储容量估算数据量增长预估:首先需要考虑数据仓库的数据来源,包括业务系统数据库、日志文件、外部数据等。分析每个数据源的数据增长速度,例如,业务系统中的交易数据可能按照每月10%的速度增长,日志文件数据可能随着用户活动的增加而线性增长。历史数据保留策略:确定需要保留......
  • 数据仓库的技术架构
    数据源层数据来源多样性:数据仓库的数据源非常广泛,包括企业内部的业务系统(如ERP系统、CRM系统、SCM系统等)、各种数据库(如关系型数据库、非关系型数据库)、文件系统(如日志文件、CSV文件、XML文件等),以及外部数据(如市场调研数据、社交媒体数据等)。这些数据源提供了构建数据仓库所需......
  • 信息技术应用创新软件适配认证规则
    1.适用范围本规则适用于信息技术应用创新应用软件适配认证。2.认证模式认证模式:产品检测+获证后监督认证的基本环节包括:a.认证的申请b.产品检测c.认证结果评价与批准d.获证后的监督e.复审3.认证申请3.1认证单元划分......
  • 大数据的演进历史
    早期探索阶段(19世纪末至20世纪70年代)数据处理自动化的开端:1887年至1890年间,美国统计学家赫尔曼·霍尔瑞斯为统计1890年的人口普查数据发明了一台电动读取设备,极大地提升了数据处理效率。数据存储技术的初步发展:20世纪50年代至70年代,磁带和磁盘等数据存储介质相继出现。磁带容量......