Hadoop学习（3）

时间：2022-11-01 22:56:12浏览次数：61

HDFS

　　概述：向磁盘中写入数据的时间一般是读取时间的3倍。HDFS以流处理访问模式来存储文件的，一次写入，多次读取。磁盘存储文件时，是按照数据块来进行存储的，数据块是磁盘读写的最小单位。构建与的那个磁盘上的文件系统是通过磁盘块来管理文件系统，文件系统块的大小一般是磁盘块的整数倍。磁盘块的大小一般是512字节。

　　对于用户来说，HDFS可以被看为一个巨大的硬盘。

　　体系结构及原理

　　HDFS采用了主从（Master/Slave）结构模型；

　　一个HDFS集群包含了一个名称节点（NameNode）和若干个数据节点（DataNode）；

　　名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。

　　集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际是保存在Linux文件系统中的。

　　HDFS命名空间管理

　　HDFS的命名空间包含目录、文件和块

　　HDFS使用的是传统的分级文件体系，因此用户可以象是用普通文件系统那样创建、删除目录和文件，在目录中转移文件，重命名文件等。

　　通信协议

　　HDFS是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输。

　　所有的HDFS通信协议都是建立在TCP/IP协议基础上的

　　客户端通过一个可配置的端口向名称节点主动发起TCP连接，并使用客户端协议与名称节点进行交互。

　　客户端与数据节点的交互式通过RPC（Remote Procedure Call）来实现的。在设计上，名称节点不会主动发起RPC，而是响应来自客户端和数据节点的RPC请求。

　　客户端

　　客户端是用户操作HDFS最常用的方式，HDFS在部署是提供了客户端

　　HDFS客户端是一个库，暴露了HDFS文件系统接口，这些接口隐藏了HDFS实现中的大部分复杂性。

　　严格来说，客户端并不算是HDFS的一部分

　　客户端可以支持打开、读取、写入等常见操作，并且提供了类似Shell的命令行方式来访问HDFS中的数据

　　此外，HDFS也提供了Java API，作为应用程序访问文件系统的客户端编程接口。

　　HDFS体系结构的局限性

　　HDFS只设置了唯一一个名称节点，这样做虽然大大简化了系统设计，但是也带来了一些明显的局限性，具体如下：

　　（1）命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。

　　（2）性能的瓶颈：整个分布式文件系统的吞吐量，受限于的单个名称节点的吞吐量。

　　（3）隔离现象：由于集群中只有一个名称节点，只有一个命名空间，因此，无法对不同应用程序进行隔离。

　　（4）集群的可用性：一旦这个唯一的名称节点发生故障，会导致整个集群变得不可用。

　　数据读写过程

标签：HDFS,文件系统,Hadoop,学习,名称,磁盘,节点,客户端
From： https://www.cnblogs.com/20203923rensaihang/p/16849047.html

学习java的第三天
学习的java的第三天基本类型转换低--------------------------------------------高byte,short,char,int,long,float,double强制类型转换重高容量类型转换到低容量类......
有可能是学习Git命令最好的网站
网站地址：https://learngitbranching.js.org/?locale=zh_CN网站以沙盒闯关的方式学习Git各个命令，每次关卡都介绍本次要学习的Git指令，通过沙盒+命令行的方式来引导你通过已......
C# Linq学习笔记（一）-基础语法入门
一、简介：Linq（语言集成查询）：为C#和VisualBasic提供语言级查询功能和高阶函数API，让你能够编写具有很高表达力度的声明性代码。二、优点：1、LINQ具有语言级查询语法，切......
Ubuntu22安装Hadoop完全分布式集群
Ubuntu22.04安装Hadoop完全分布式集群1.网络配置需要修改四处，windows（宿主机），vmware，和虚拟机ubuntu（NAT模式）windows，设置vmware8的ipv4选项即可vmware的ip设置和windo......
C语言学习--指针数组
#include<stdio.h>//指针数组，数组里面的每一个元素都是指针intmain(){inta=10;intb=20;intc=30;//int*p1=&aint*p2=&......
python中的字符串学习
#1.字符串的下标（索引）#取字符串中的子串print('1.字符串的下标（索引）')str1='PYTHON'print(str1[0])print(str1[-4])#2.字符串的切片起始值:终止值:步长print......
Linux学习笔记（第七篇）用户和组管理
Linux学习笔记（第零篇）计算机基础Linux学习笔记（第零篇）Linux文件系统及ShellLinux学习笔记（第一篇）零散命令Linux学习笔记（第二篇）目录操作命令Linux学习笔记（第三篇）文件操......
Linux学习笔记（第五篇）归档及压缩命令
Linux学习笔记（第零篇）计算机基础Linux学习笔记（第零篇）Linux文件系统及ShellLinux学习笔记（第一篇）零散命令Linux学习笔记（第二篇）目录操作命令Linux学习笔记（第三篇）文件操......
Linux学习笔记（第八篇）磁盘与文件系统管理
Linux学习笔记（第零篇）计算机基础Linux学习笔记（第零篇）Linux文件系统及ShellLinux学习笔记（第一篇）零散命令Linux学习笔记（第二篇）目录操作命令Linux学习笔记（第三篇）文件操......
Linux学习笔记（第九篇）逻辑卷管理（LVM）
Linux学习笔记（第零篇）计算机基础Linux学习笔记（第零篇）Linux文件系统及ShellLinux学习笔记（第一篇）零散命令Linux学习笔记（第二篇）目录操作命令Linux学习笔记（第三篇）文件操......

Hadoop学习（3）

相关文章

赞助商

阅读排行