首页 > 其他分享 >Hadoop（十一）HDFS 读写数据流程

Hadoop（十一）HDFS 读写数据流程

时间：2024-09-18 09:35:19浏览次数：8

标签：HDFS 读写 Hadoop DataNode dn1 dn2 NameNode 节点客户端

HDFS读写数据流程

一、写数据流程

1、客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在
2、NameNode返回是否可以上传
3、客户端请求第一个Block上传到哪几个DataNode服务器上
4、NameNode返回3个DataNode节点，分别为dn1、dn2、dn3
5、客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成
6、dn1、dn2、dn3逐级应答客户端
7、客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答
8、当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器（重复执行3-7步）

二、节点距离计算

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据
节点距离：两个节点到达最近的共同祖先的距离总和

三、副本存储节点选择

第一个副本在Client所处的节点上，如果客户端在集群外，随机选一个；第二个副本在另一个机架的随机一个节点；第三个副本在第二个副本所在机架的随机节点

四、读数据流程

1、客户端通过DistributedFileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址
2、挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据
3、DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）
4、客户端以Packet为单位接收，先在本地缓存，然后写入目标文件

标签：HDFS,读写,Hadoop,DataNode,dn1,dn2,NameNode,节点,客户端
From： https://www.cnblogs.com/shihongpin/p/18417892

相关文章

使用CUBE_MX使用I2C通信，实现对EEPROM的读写
一、使用CUBE_MX配置1.配置I2C2.配置USART13.重中之重(在KEIL5打开串口使用的库)二、KEIL5配置#include"main.h"#include"i2c.h"#include"gpio.h"#include"usart.h"#include<stdio.h>voidSystemClock_Config(void);voidI2C_EE_Buf......
一款EF Core下高性能、轻量级针对分表分库读写分离的解决方案
前言今天大姚给大家分享一款EFCore下高性能、轻量级针对分表分库读写分离的解决方案，开源（ApacheLicense）的EFCore拓展程序包：ShardingCore。ShardingCore项目介绍ShardingCore是一款开源、简单易用、高性能、普适性，针对EFCore生态下的分表分库的扩展解决方案，支持EFCore2+的所有版......
计算机毕业设计Python深度学习水文预测水文可视化水文爬虫洪水自然灾害预测水文数
多数据源水文数据获取技术与应用分析摘要随着信息技术的不断发展，水文数据获取和分析成为了现代水文学研究的重要内容。多数据源水文数据获取技术与应用分析系统为我们提供了一种新的水文数据处理和分析方式。该系统利用爬虫技术获取长江水文网的数据，采用 Python ......
计算机毕业设计Flink+Hadoop广告推荐系统广告预测广告数据分析可视化广告爬虫大数
《Flink+Hadoop广告推荐系统》开题报告一、项目背景与意义随着互联网技术的飞速发展和数据量的爆炸性增长，广告推荐系统已成为互联网企业提升用户体验和增加收益的重要手段。传统的广告推荐系统往往面临计算效率低、实时性差、推荐精度不足等问题，难以满足当前复杂多变的业务需......
【背时咯】简单记录一下大数据技术的核心组件，包括Hadoop、Spark、Kafka等，并说明它们在
大数据技术的核心组件包括Hadoop、Spark、Kafka等，它们在大数据生态系统中扮演着不可或缺的角色。以下是对这些核心组件的详细解释及它们在大数据生态系统中的作用：Hadoop核心组件：Hadoop分布式文件系统(HDFS)：提供高可靠性的数据存储能力，能够将大规模的数据集分布式存储在多......
JAVA 多线程基础：JAVA中double 和 long非原子读写问题
在解释这个问题之前，我们先来回顾下Java中基础数据类型所占的位数。类型长度（位）字节byte41boolean41int324short162long648char162float324double648可以看到对于double以及long两种基本数据类型，所占位数为64位。而JVM却有32bit与64bit两种，也就是说在32bitJVM中不能将doub......
【计算机毕设-大数据方向】基于Hadoop的在线教育平台数据分析可视化系统的设计与实现
......
这才是我想要的PCIe 5.0 SSD！慧荣SM2508主控首测：读写满血还不烫手
市面上现有的PCIe5.0SSD几乎都采用了群联E26主控，不但读写速度达不到满血标准，最高也就12GB/s，功耗和发热还特别高，经常需要主动风扇散热。英韧IG5666性能好了不少，基本可以跑满，但是发热仍然太高，因为它俩都是台积电12nm。慧荣已经多次展示过他们的方案SM2580，一方面性能满血，一方面发......
hadoop中小文件问题的解决方案
鱼弦：公众号：红尘灯塔，CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Hadoop小文件问题解决方案Hadoop小文件问题是指在Hadoop中存储大量小文件时，会降低Hadoop的性能和效率。这是......
hadoop+java基于大数据的电影推荐系统 (源码+文档+调试+可视化大屏)
收藏关注不迷路！！......

赞助商

阅读排行