首页 > 其他分享 >一文了解HDFS

一文了解HDFS

时间:2024-07-10 10:57:09浏览次数:22  
标签:HDFS 一文 文件 了解 DataNode NameNode 数据 客户端

1. 简介

1.1. 概述

HDFS是基于 流数据 访问模式的 分布式文件系统 ,其设计建立在 “一次写入、多次读取” 的基础上,提供高吞吐量、高容错性的数据访问,能很好地解决海量数据的存储问题。

流数据:是指数千个数据源 持续生成 的数据,可以理解为随时间延续而 无限增长 的动态数据集合。通俗点说,数据就是水龙头里流出的水。
特点:实时的,动态生成的,没有明确的开始和结束。
与流数据对应的是批数据:批数据是指以大批量形式存储和处理的数据。在批处理中,数据集是静态的,意味着数据在处理前已经被完全收集和存储。通俗点说,数据就是一个瓶子里流出的水。
特点:静态数据集,处理前数据已知。

1.2. 优点

  1. 大规模数据存储: HDFS能够处理PB级别的数据存储需求,通过将数据分割成块并在集群的多个节点上分布存储,实现了数据的水平扩展。

  2. 高吞吐量数据访问: 对于大数据分析任务,HDFS提供了高带宽的数据访问能力,允许用户快速读取大量数据进行处理。

  3. 高容错性: HDFS具有内置的冗余机制,通常每个数据块有多个副本,这确保了即使某些节点失败,数据仍然可用。这种高容错性对于大规模分布式环境至关重要。

  4. 成本低: 通过利用廉价的商用硬件构建大型集群,HDFS降低了大规模数据存储的成本。

  5. 支持流式数据访问: HDFS被设计用于流式数据访问模式,适合于批量处理和分析。

1.3. 缺点

  1. 不适合处理 低延迟 的数据访问。比如用户 要求时间比较短 的低延迟应用(主要处理高数据吞吐量的应用)。

  2. 不适合处理 大量的小文件。会造成寻址时间超过读取时间;会占用NameNode大量内存,因为NameNode把文件系统的元数据存放在内存中(文件系统的容量由NameNode的大小决定),小文件太多会消耗NameNode的内存。

  3. 不适合并发写入。一个文件只能有一个写入者,HDFS暂不支持多个用户对同一个文件的写操作。

  4. 不适合 任意修改 文件。仅支持append(附加),不支持在文件的任意位置进行修改。

2.组成和架构

HDFS的组成架构图及各部分功能如下所示:

(本文所有图片均来自网络)

2.1.NameNode节点(名称节点)

负责保存文件属性。

2.1.1.职责

是HDFS的管理者,负责保存和管理HDFS的元数据。

  1. 管理维护HDFS的命名空间:NameNode管理HDFS系统的命名空间,维护文件系统树以及文件系统树中所有文件的元数据。管理这些信息的的文件分别是 edits(操作日志文件) 和 fsimage(命名空间镜像文件) 。

    editlog(操作日志):在NameNode启动的情况下,对HDFS进行的各种操作进行记录。(HDFS客户端执行的所有操作都会被记录到editlog文件中,这些文件由edits文件保存)。(自上次快照以来的所有更改)
    ​
    fsimage:包含HDFS中的元信息(比如修改时间、访问时间、数据块信息等)。(最新的元数据快照)
  2. 管理DataNode上的数据块:管理所有元数据信息,DataNode上数据块的均衡,维持副本数量。

  3. 接受客户端的请求:接受客户端文件上传、下载、创建目录等的请求。

2.2. DataNode节点(数据节点)

负责保存文件数据。

2.2.1.职责

负责存储数据,把数据块以Linux文件的形式保存在磁盘上,并根据Block标识和字节范围来读写块数据。

  1. 保存数据块:一个数据块会在多个DataNode进行冗余备份,但是在某一个DataNode最多只有一个备份。

  2. 负责客户端对数据块的IO请求:在客户端执行写操作时,DataNode之间会相互通信,保证写操作的一致性。

  3. 定期和NameNode进行心跳通信,接受NameNode的指令:如果NameNode十分钟没有收到DataNode的心跳信息,将会将其上的数据块复制到其他DataNode节点。

    为什么DataNode把数据块设置的比较大?(正常数据块是64k,但是datanode的数据块是128M)
    答:1.减少寻址开销:较大的数据块意味着对于相同的数据量,需要处理的块数量更少,这样可以减少磁盘的寻道时间。
    2.提高传输效率:避免数据传输花费过多时间在于寻址上
    3.减少NameNode的内存消耗:NameNode负责跟踪和管理HDFS中的所有文件和块的位置信息,如果块比较大可以减少NameNode需要维护的元数据量,进而减少内存消耗,有助于保持NameNode的可扩展性和响应速度。
    但是块也不是越大越好,如果块过大,当需要数据恢复时,消耗的时间就会增加。同时,因为每个文件至少占用一个完整的块,所以对于一些小文件,可能会导致存储空间的浪费。

2.3.SecondaryNameNode节点(第二名称节点)

定期创建命名空间的检查点操作的节点,专门用于FsImage和Edits的合并。出于可靠性考虑,SecondaryNameNode节点与NameNode节点通常运行在不同的机器上,且SecondaryNameNode节点与NameNode节点的内存要一样大

一般情况下,一个集群中的SecondaryNameNode节点也是只有一个的原因是什么?
答:因为SecondaryNameNode的合并操作并非频繁发生,而是按照预设的时间间隔进行,因此没有必要部署多个节点来并行执行这些任务。多个SecondaryNameNode反而会增加系统复杂度,引入不必要的同步和通信开销,可能会导致数据不一致或其他问题。
2.3.1.职责
  1. 防止edits过大:定期合并 fsimage 和 edits 文件,使 edits 大小保持在限制范围内。这样做减少了重新启动NameNode时合并 fsimage 和 edits 耗费的时间,从而减少了NameNode启动的时间。

  2. 做冷备份:对一定范围内数据做快照性备份,在NameNode失效时能恢复部分 fsimage。

2.3.2 工作流程
  1. NameNode启动:当NameNode首次启动或格式化时,它会创建一个初始的fsimage文件,这个文件包含了文件系统的所有元数据信息。同时,NameNode开始记录所有的文件系统变更操作到编辑日志(Edit Log)中。

  2. 编辑日志积累:随着时间推移,NameNode会持续记录文件系统的变更操作,这些操作被追加到一系列的编辑日志文件中。

  3. 触发检查点(Checkpoint):当编辑日志文件达到一定大小(默认64MB)或经过了一段时间(默认1小时),会触发一个检查点操作,SecondaryNameNode开始合并。

  4. SecondaryNameNode参与:SecondaryNameNode会从NameNode拉取最新的fsimage文件和所有未合并的编辑日志文件。SecondaryNameNode将这些文件加载到内存中,并且将编辑日志中的所有变更应用到fsimage中,形成一个更新后的fsimage文件。

  5. 合并操作:在内存中完成fsimage和编辑日志的合并后,SecondaryNameNode将更新后的fsimage保存到自己的本地磁盘上。

  6. 返回合并后的fsimage给NameNode:SecondaryNameNode将合并后的fsimage文件发送回NameNode。NameNode接收到更新后的fsimage文件后,会用它来替换原有的fsimage文件,并清空已经合并的编辑日志。

  7. NameNode继续运行:NameNode使用更新后的fsimage文件继续提供服务,并开始记录新的编辑日志。

  8. 循环往复:这个过程会周期性地重复,以确保NameNode的元数据始终保持在一个合理大小,提高NameNode的性能和响应时间。

2.4. HttpFS节点

是一个HTTP网关,允许客户端通过HTTP协议访问HSFS,让那些非Java应用和那些不能直接使用HDFS Java客户端的应用程序能够访问HDFS。

2.4.1. 职责

客户端可以通过发送HTTP请求到HttpFS的URL来访问HDFS,这些请求会被转发到HDFS集群并返回相应的响应。

2.5. journalNode节点

日志节点。用于支持NameNode高可用性的关键组件之一。

2.5.1. 职责
  1. 日志记录:包含了所有对文件系统元数据所做的更改,比如文件的创建、删除、重命名等操作。这样当Active NameNode失败的情况下,Standby NameNode可以迅速的转换为Active状态,并且确保它的元数据和前一个Active NameNode的元数据完全一致。

  2. 故障恢复:当Active NameNode发生故障,Standby NameNode会读取JournalNode中的Edits log然后应用到自己的Fslmage上。

3.HDFS的读写流程

3.1.写数据流程

  1. 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在,检查客户端权限是否可以写入文件

  2. NameNode返回是否可以上传。

  3. 客户端请求第一个 Block上传到哪几个DataNode服务器上。

  4. NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。

  5. 客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。

  6. dn1、dn2、dn3逐级应答客户端。

  7. 客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存),以Packet为单位,dn1收到一个Packet就会传给dn2,dn2传给dn3;dn1每传一个packet会放入一个应答队列等待应答。(虽然存储是存储在128MB的块中,但是写数据传输的数据包大小只是64KB)。

  8. 当一个Block传输完成之后,客户端再次请求NameNode上传第二个Block的服务器。(重复执行3-7步)。

NameNode给客户端返回几个DataNode节点由配置的冗余级别来决定。一般默认是三份。
第一个副本:放置在上传文件的数据节点(第一个副本如果是在 集群外 提交,则随机挑选一个 CPU 比较空闲 、 磁盘不太满 的节点);
第二个副本:放置在与 第一个副本 不同 的机架的节点上;
第三个副本:放在与 第二个副本 相同 的机架的其他节点上。
通信管道的作用:
1.**减少客户端的负载**:通信管道允许数据以流的方式从客户端传递到第一个DataNode然后依次通过后续的DataNode,直到达到所有必要的副本位置。所以通过建立通信管道,客户端只需要与第一个DataNode通信,之后的复制过程由DataNode之间完成,这极大地减轻了客户端的负担。
​
2.**数据块的同步复制**:通信管道确保了数据块可以同时在多个DataNode上进行复制,这有助于快速实现数据块的冗余存储,提高数据的可靠性和可用性。
​
3.**故障恢复**:如果在数据传输过程中任何一个DataNode发生故障,管道机制允许失败点之前的DataNode重新启动数据流,从而继续数据块的复制,确保数据完整性和一致性。
​
4.**减少NameNode的负担**:通过管道机制,数据块的复制过程主要由DataNode自主进行,减少了NameNode的直接参与,使得NameNode可以专注于文件系统的元数据管理。

3.2.读数据流程

  1. 客户端通过DistributedFileSystem向NameNode请求读取文件。

  2. NameNode通过查询元数据,找到文件块所在的DataNode列表,返回给客户端。

  3. 客户端挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。

  4. DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。

  5. 客户端以Packet为单位接收,先在本地缓存,然后写入目标文件

4.高可用性

JournalNode和Standby NameNode和Failover Controller(故障转移)都是为了保障HDFS的高可用性。

4.1.备用NameNode (Standby NameNode)

备用NameNode并不直接处理客户端请求,但它的角色非常重要,因为它需要保持与活动NameNode相同的元数据状态。备用NameNode定期从活动NameNode那里同步最新的元数据信息,包括FsImage(文件系统镜像)和EditLog(编辑日志)文件。这样做是为了确保在活动NameNode发生故障时,备用NameNode可以立即接管其职责,而不会丢失任何元数据信息。

当活动NameNode不可用时,备用NameNode会通过一个称为“故障转移”(Failover)的过程被提升为活动状态。在故障转移后,新的活动NameNode会开始处理客户端请求,而原来的活动NameNode如果恢复,可以转变为新的备用NameNode。

4.2.JournalNode

JournalNode的主要作用是作为一个独立的日志存储系统,用来存储NameNode的事务日志(EditLogs)。在HDFS HA架构中,Active NameNode会将所有对文件系统元数据的更改写入到JournalNode集群中,确保这些更改被持久化并可被多个NameNode访问。这样做的目的是为了提高系统的容错能力,因为在Active NameNode失败的情况下,Standby NameNode可以从JournalNode集群中恢复最新的元数据状态,而无需依赖于Active NameNode本身。

在Hadoop的高可用性(HA)配置中,如果配置了JournalNode,那么在Active NameNode发生故障时,Standby NameNode并不会直接从Active NameNode读取日志信息,而是从JournalNode集群读取必要的日志信息。
同时,Active NameNode会将所有对文件系统元数据的更改写入到JournalNode集群中,确保这些更改被持久化并可被多个NameNode访问。

4.3.Failover Controller

故障转移是指从备用NameNode切换到活动状态的过程。这个过程可以是手动的,也可以是自动的,取决于具体的配置。Hadoop提供了一个Zookeeper Failover Controller(ZKFC)组件,它可以监控NameNode的状态,并在检测到活动NameNode故障时自动触发故障转移,将备用NameNode转换为活动状态。

标签:HDFS,一文,文件,了解,DataNode,NameNode,数据,客户端
From: https://blog.csdn.net/m0_66005574/article/details/140271368

相关文章

  • 三分钟,快速了解区块链技术!
    区块链,一种分布式账本技术,是一种分布式数据存储技术。链式存储结构:区块链是一种分布式账本技术,其核心是通过去中心化的方式来存储和管理数据。1交易发起与验证发起交易:用户在计算机上发起交易请求。这交易可以是转账、资产交换或其他类型的信息交换。节点传播:交易请求会通......
  • 一文熟悉拖拽式表单设计器的方方面面
    很多客户朋友都想知道用什么样的软件平台可以实现提质、降本、增效的目的。可以来了解低代码技术平台、拖拽式表单设计器的更多功能与特点。作为专业的服务商,流辰信息为客户提供整套低代码技术平台服务解决方案,通过本文,可以详细了解拖拽式表单设计器的更多优势和特点。其实,低代码......
  • 一起了解自定义流程表单开发的主要优势
    当前,想要进行流程化办公,应用专业的软件平台产品是非常重要的。低代码技术平台拥有可视化操作界面、很灵活、易维护等优势特点,可以应用于很多中小型流程化办公中。那么,低代码技术平台、自定义流程表单开发的主要优势特点表现在哪来?跟着小编的节奏,一起来了解它们的主要优势吧。什么......
  • Java基础入门了解,规范----入门篇1
    一.Java代码规范1.注释注释分类:1.单行注释:// 2.多行注释:/**/ 3.文档注释:/***/2.关键字java本身定义的一些单词,类似于public,class之内3.标识符在程序中定义的属性名,方法名,类名等等1.硬性要求:可以包含英文字母,0-9数字,$,_不能以数字开头关键字不能作为标识符2.软性......
  • 了解Adam和RMSprop优化算法
    优化算法是机器学习和深度学习模型训练中至关重要的部分。本文将详细介绍Adam(AdaptiveMomentEstimation)和RMSprop(RootMeanSquarePropagation)这两种常用的优化算法,包括它们的原理、公式和具体代码示例。RMSprop算法RMSprop算法由GeoffHinton提出,是一种自适应学习率的方......
  • 【一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操(含源码)】
    文末有福利!引言针对大型语言模型效果不好的问题,之前人们主要关注大模型再训练、大模型微调、大模型的Prompt增强,但对于专有、快速更新的数据却并没有较好的解决方法,为此检索增强生成(RAG)的出现,弥合了LLM常识和专有数据之间的差距。今天给大家分享的这篇文章,将介绍RAG的概......
  • 教你了解八大排序(含代码注释示例java)
    目录1.冒泡排序(BubbleSort)2.选择排序(SelectSort)3.插入排序(InsertionSort)4.希尔排序(ShellSort)5.归并排序(MergeSort)6.快速排序(QuickSort)7.堆排序(HeapSort)8.基数排序(RadixSort)1.冒泡排序(BubbleSort)这是最简单的排序算法之一。它......
  • 三分钟了解一款强大的网络设备模拟器:PNETLab
    PNETLab是一个多功能平台,允许用户下载和分享网络实验室给更广泛的社区成员。它主要由两个核心组件组成:PNETLabBox和PNETLabStore,这两个部分各自承担不同的但又相互补充的作用,共同推动网络模拟和教育的发展。官网地址:https://pnetlab.com/特性:下载:实验商店:PNETLabB......
  • spark程序在hdfs集群执行,提示: “main“ org.apache.spark.SparkException: Failed to
    1.执行代码spark在hadoop上以集群模式执行代码bin/spark-submit\--masteryarn\--deploy-modecluster\--executor-memory1G\--total-executor-cores2\/root/word_count_cluster.py2.错误截图错误原因:找不到spark目录3.解决办法在/etc/profile文件中配置spa......
  • 【转】你了解 localhost 与 127.0.0.1 的区别吗?
    引言在信息技术的世界里,localhost和127.0.0.1频繁出现在各种网络及软件开发的场景之中。它们似乎指向同一个意义——那就是你的本地机器。但仔细探究之下,你会发现它们之间其实存在着一些微妙的差异。今天,我们就来深究这两者之间的区别,并揭示它们在实际应用中的重要性。基本概......