Hadoop（十三）DataNode

时间：2024-09-18 14:12:32浏览次数：10

标签：十三 interval Hadoop DataNode heartbeat NameNode 超时 Block

一、DataNode工作机制

1、一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳
2、DataNode启动后向NameNode注册，通过后，周期性（6小时）的向NameNode上报所有的块信息
3、心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令，如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用
4、集群运行中可以安全加入和退出一些机器

二、数据完整性

以下是DataNode节点保证数据完整性的方法。
1、当DataNode读取Block的时候，它会计算CheckSum
2、如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏
3、Client读取其他DataNode上的Block
4、常见的校验算法crc（32），md5（128），sha1（160）
5、DataNode在其文件创建后周期验证CheckSum

三、掉线时限参数设置

1、DataNode进程死亡或者网络故障造成DataNode无法与NameNode通信，NameNode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长，HDFS默认的超时时长为10分钟+30秒
2、如果定义超时时间为TimeOut，则超时时长的计算公式为：

TimeOut = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

hdfs-site.xml配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒

标签：十三,interval,Hadoop,DataNode,heartbeat,NameNode,超时,Block
From： https://www.cnblogs.com/shihongpin/p/18418401

Hadoop（十二）NameNode 和 SecondaryNameNode
一、NN和2NN工作机制1、NameNode中的元数据存储在哪里？存储在NameNode节点的磁盘中会导致效率过低，因为经常需要进行随机访问和响应客户请求；存储在内存中，一旦元数据丢失，整个集群就无法工作，也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件（只进行追加操作，效率很......
Hadoop（十一）HDFS 读写数据流程
HDFS读写数据流程一、写数据流程1、客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在2、NameNode返回是否可以上传3、客户端请求第一个Block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点，分别为dn1......
计算机毕业设计Python深度学习水文预测水文可视化水文爬虫洪水自然灾害预测水文数
多数据源水文数据获取技术与应用分析摘要随着信息技术的不断发展，水文数据获取和分析成为了现代水文学研究的重要内容。多数据源水文数据获取技术与应用分析系统为我们提供了一种新的水文数据处理和分析方式。该系统利用爬虫技术获取长江水文网的数据，采用 Python ......
计算机毕业设计Flink+Hadoop广告推荐系统广告预测广告数据分析可视化广告爬虫大数
《Flink+Hadoop广告推荐系统》开题报告一、项目背景与意义随着互联网技术的飞速发展和数据量的爆炸性增长，广告推荐系统已成为互联网企业提升用户体验和增加收益的重要手段。传统的广告推荐系统往往面临计算效率低、实时性差、推荐精度不足等问题，难以满足当前复杂多变的业务需......
【背时咯】简单记录一下大数据技术的核心组件，包括Hadoop、Spark、Kafka等，并说明它们在
大数据技术的核心组件包括Hadoop、Spark、Kafka等，它们在大数据生态系统中扮演着不可或缺的角色。以下是对这些核心组件的详细解释及它们在大数据生态系统中的作用：Hadoop核心组件：Hadoop分布式文件系统(HDFS)：提供高可靠性的数据存储能力，能够将大规模的数据集分布式存储在多......
【计算机毕设-大数据方向】基于Hadoop的在线教育平台数据分析可视化系统的设计与实现
......
hadoop中小文件问题的解决方案
鱼弦：公众号：红尘灯塔，CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Hadoop小文件问题解决方案Hadoop小文件问题是指在Hadoop中存储大量小文件时，会降低Hadoop的性能和效率。这是......
计算机的错误计算（九十三）
摘要探讨log(y,x)即以x为底y的对数的计算精度问题。 Log(y,x)运算是指 x为底y的对数。例1. 计算log(123667.888,0.999999999999999). 不妨在Python中计算，则有：若在Excel单元格中计算，则有几乎同样的输出：然而，正......
十三，Spring Boot 中注入 Servlet，Filter，Listener
十三，SpringBoot中注入Servlet，Filter，Listener@目录十三，SpringBoot中注入Servlet，Filter，Listener1.基本介绍2.第一种方式：使用注解方式注入：Servlet，Filter，Listener2.1使用注解方式注入：Servlet2.2使用注解方式注入：Filter2.3使用注解方式注入：Listener3.第二种方式：使用Regis......
hadoop+java基于大数据的电影推荐系统 (源码+文档+调试+可视化大屏)
收藏关注不迷路！！......

Hadoop（十三）DataNode

一、DataNode工作机制

二、数据完整性

三、掉线时限参数设置

相关文章

赞助商

阅读排行