首页 > 其他分享 >HDFS 机架感知

HDFS 机架感知

时间:2023-12-11 18:23:17浏览次数:29  
标签:HDFS 副本 节点 机房 放置 机架 感知

互联网公司的 Hadoop 集群一般都会比较大,几百台服务器会分布在不同的机架上,甚至在不同的机房。出于保证数据安全性和数据传输的高效性的平衡考虑,HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架和跨机房。同时,NameNode 在分配 Block 的存储位置的时候,会尽可能把数据块的副本放到多个机架甚至机房中,防止机架出现事故或者机房出现事故时候的数据丢失问题发生。

 

 

这就是 HDFS 的机架感知,首先机房和机架的信息是需要用户自己配置的,HDFS 没法做到自动感知,然后根据配置的信息,NameNode 会有如下的副本放置策略。

- 第一个 block 副本放在 Client 所在的服务器,如果 client 不在集群服务器中,则这第一个 DataNode 会随机选择。
- 第二个副本放置在与第一个节点不同的机架中的节点中,保证机架间的高可用。
- 第三个有不同机房则跨机房随机放置在某个节点上;只有一个机房则和第二副本在同一个机架,随机放在不同的节点中。
- 更多的副本,则继续随机放置,需要注意的是一个节点最多放置一个副本。

HDFS 读流程中如何找到最佳节点? 这个放置策略其实也就是上一篇中提到的 HDFS 读流程中如何找到最佳节点的答案。读的过程,会首先找离 Client 最近的 DataNode,保证读的高效避免资源浪费,先后顺序依次是:

1. 与 Client 在同一服务器
2. 在同一机架
3. 在同一个机房
4. 跨机房

标签:HDFS,副本,节点,机房,放置,机架,感知
From: https://www.cnblogs.com/guoyu1/p/17895084.html

相关文章

  • 论文精读:基于具有时空感知的稀疏多图卷积混合网络的大数据驱动船舶轨迹预测(Big data d
    论文精读:基于具有时空感知的稀疏多图卷积混合网络的大数据驱动船舶轨迹预测《Bigdatadrivenvesseltrajectorypredictionbasedonsparsemulti-graphconvolutionalhybridnetworkwithspatio-temporalawareness》论文链接:https://doi.org/10.1016/j.oceaneng.2023.115......
  • Java实现对Hadoop HDFS的API操作
    1.配置Hadoop的Windows客户端Hadoop配置Windows客户端2.新建Maven项目[略]3.添加依赖<!--https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client--><dependency><groupId>org.apache.hadoop</groupId>......
  • Hadoop HDFS 文件块大小
    HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来配置,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M.建议配置为物理机硬盘每秒的读取速度,如机械硬盘则建议为128M,SSD则配置为256M。HDFS的块设置太小,会增加寻址时间,程序一直在找块的开......
  • 基于支持向量机SVM和MLP多层感知神经网络的数据预测matlab仿真
    1.算法运行效果图预览   2.算法运行软件版本matlab2022a 3.算法理论概述      支持向量机(SVM)和多层感知器(MLP)是两种常用的机器学习算法,它们在数据预测和分类任务中都有广泛的应用。下面将详细介绍这两种算法的原理和数学公式。 一、支持向量机(SVM) ......
  • 单机架构
    初期,我们需要利用我们精干的技术团队,快速将业务系统投入市场进行检验,并且可以迅速响应变化要求。但好在前期用户访问量很少,没有对我们的性能、安全等提出很高的要求,而且系统架构简单,无需专业的运维团队,所以选择单机架构是合适的用户在浏览器中输入www.google.com,首先经过DNS服......
  • 客户案例:SMC2威胁感知升级,保障金融行业邮件安全
    客户背景某基金公司是一家在业界享有广泛声誉的综合型资产管理公司,总部位于广州,在北京、上海、香港等地区均设有公司,业务范围遍布全球,凭借其卓越的投资业绩和专业的基金管理服务,赢得了广大投资者的高度认可。该基金公司不仅在专业领域表现出不俗的实力,同时对邮件安全领域也给予了高......
  • 分布式系统HDFS
    1、完全分布式搭建hadoop102[namenode,datanode],hadoop103[datanode],hadoop104[secondarynamenode,datanode]缺少104,配置104选择完全克隆103机器的名称hadoop104配置机器的IP192.168.18.104修改vim /etc/sysconfig/network-scripts/ifcfg-ens33重启⽹络......
  • 二、HDFS的读写流程
    一、写数据(宏观)  写数据就是将客户端上的数据上传到HDFS 1.客户端向HDFS发送写数据请求 hdfsdfs-putstudents.txt/shujia/ 2.Filesystem通过rpc调用namenode的put方法 a.nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在,权限......
  • Hadoop三大组件(HDFS,MapReduce,Yarn)
    1、HDFSHDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。2、MapReduceMapReduce是一个软件框架,基于该框架能够容易地编写应用......
  • 戴尔PowerEdge R750 机架式服务器初始安装Windows Server 2019 服务器系统
    公司因为业务需求,从戴尔原厂网购三台R750服务器,戴6块a4显卡和6块960G的SSD,由于没有要求配置RAID和操作系统,现记录一下安装过程。SSD:960G,六块服务器型号:R750RAID类型:RAID1+RAID5,具体说明介绍见DELL官网介绍。 ......