NAMENODE

2024-11-04Hadoop高可用搭建
搭建前准备（检查是否满足以下条件）1、关防火墙servicefirewalldstop2、时间同步yuminstallntpntpdate-us2c.time.edu.cn或者date-s201805033、免密钥(远程执行命令)在两个主节点生成密钥文件ssh-keygen-trsassh-copy-idipmaster-->master,node1,node2
2024-11-03HDFS的读写流程
HDFS的读写流程写数据1、宏观1、客户端发起请求到NameNode，调用Hadoop中的一个类叫做DistributedFileSystem创建对象，再利用这个对象通过RPC通信协议调用NameNode去创建一个没有blocks关联的新文件。在创建之前NameNode会做各种校验：比如该文件是否存在，客户端有无权限去创建...
2024-11-01Hadoop基础知识整理
一、HDFS1.HDFS概述Hadoop分布式系统框架中，首要的基础功能就是文件系统，在Hadoop中使用FileSystem这个抽象类来表示我们的文件系统，这个抽象类下面有很多子实现类，究竟使用哪一种，需要看我们具体的实现类，在我们实际工作中，用到的最多的就是HDFS(分布式文件系统)以及LocalFileSy
2024-10-28九月二十五日
在Hadoop生态系统中，有以下几个重要的角色：NameNode（NN）：NameNode是Hadoop分布式文件系统（HDFS）的主节点，负责管理文件系统的元数据。它维护文件和目录的层次结构、权限、块的位置等信息，并处理客户端的文件系统请求。DataNode（DN）：DataNode是HDFS的数据节点，负责存储和管理实际的文件数
2024-10-22HDFS 重要机制之 checkpoint
核心概念hdfscheckpoint机制对于namenode元数据的保护至关重要,是否正常完成检查点是评估hdfs集群健康度和风险的重要指标editslog:对hdfs操作的事务记录，类似于wal，editlog文件以edits_开头，后面跟一个txid范围段，并且多个editlog之间首尾相连,正在使用的editl
2024-10-19hdfs的分布式存储原理
1.想要把一个大文件存储到hdfs,首先进行划分,将文件划分为一个一个的block,这个block默认为512MB,可修改.2.备份(也就是副本)将文件划分后,一个block丢失则原来的大文件没有用了.为了确保文件的安全性,hdfs提供了副本,也就是备份,将文件划分之后hdfs默认将每一个block备份到
2024-10-17hdfs集群的shell操作
1.进程启停管理:一键启动hdfs集群: start-dfs.sh一键关闭hdfs集群: stop-dfs.sh单独控制进程启停:hadoop-daemon.sh(start|status|stop)(namenode|datanode|secondarynamenode) 或者hadoop--daemon(start|status|stop)(namenode|datanode
2024-10-13windows下安装部署 hadoop
一、安装下载1.首先在hadoop官网下载一个稳定版本，选择binary包官网地址：https://hadoop.apache.org/releases.html下载下来是tar.gz文件，用winrar解压即可。2.因为这个压缩包是forlinux系统的，win下还需要安装几个dllwinutils, 下载地址：https://www.jianguoyun.com/p/Dcs2
2024-09-30Hadoop集群的高可用（HA）：NameNode和resourcemanager高可用的搭建
文章目录一、NameNode高可用的搭建1、免密配置2、三个节点都需要安装psmisc3、检查三个节点是否都安装jdk以及zk4、检查是否安装了hadoop集群5、修改hadoop-env.sh6、修改core-site.xml7、修改hdfs-site.xml8、检查workers文件是否为三台服务9、分发给其他两个节点10、
2024-09-26HDFS NAMENODE 安全模式
一、安全模式现象探究1.1 关闭所有服务，使用命令单独启动服务使用hdfs--daemon命令逐个进程启动集群，观察现象1.首先启动namenodestop-all.shjpshdfs--daemonstartnamenodejpshadoopfs-ls/#使用ls浏览时正常显示hadoopfs-cat/test.txt#使用cat查看数
2024-09-26Hadoop高可用集群搭建
一、HDFSHA简介1.1 QJM简介1.QuorumJournalManager（仲裁日志管理器），是Hadoop官方推荐的HDFSHA解决方案之一2.使用zookeeper中ZKFC来实现主备切换；3.使用JournalNode（JN）集群实现editslog的共享以达到数据同步的目的1.2主备切换问题解决方案--ZKFailoverController（zkfc）ZKFailo
2024-09-25HDFS NameNode元数据管理
一、什么是元数据在HDFS中，元数据主要指的是文件相关的元数据，由NameNode管理维护。从广义的角度来说，因为NameNode还需要管理众多DataNode节点，因此DataNode的位置和健康状态信息也属于元数据。二、元数据管理概述1.文件相关元数据类型在HDFS中，文件相关元数据具有两种类型：文件自身属性
2024-09-23Hadoop三大组件之HDFS（一）
1.HDFS的架构HDFS（HadoopDistributedFileSystem）采用主从架构，由一个NameNode（主节点）和多个DataNode（从节点）组成。NameNode负责管理数据块映射信息（如文件名、文件目录、权限、块位置等）并配置副本策略，而DataNode负责存储实际的数据块。SecondaryNameNode辅助NameNode进行元
2024-09-19Hadoop Windows下安装
1.下载winutils：https://github.com/s911415/apache-hadoop-3.1.0-winutils，替换bin文件hadoop：3.2.0tar解压2.环境变量hadoopversion验证问题：Error：java_homeisincorrectlyset解决：由于jdk在C盘引起：hadoop-env.cmd加入setJAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_112
2024-09-18Hadoop（十三）DataNode
一、DataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳2、DataNode启动后向NameNode注册，通过后，周期性（6小时）的向NameNode上报所有的块信息3、心跳是每3秒一次，心跳返回结果带有
2024-09-18Hadoop（十二）NameNode 和 SecondaryNameNode
一、NN和2NN工作机制1、NameNode中的元数据存储在哪里？存储在NameNode节点的磁盘中会导致效率过低，因为经常需要进行随机访问和响应客户请求；存储在内存中，一旦元数据丢失，整个集群就无法工作，也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件（只进行追加操作，效率很
2024-09-18Hadoop（十一）HDFS 读写数据流程
HDFS读写数据流程一、写数据流程1、客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在2、NameNode返回是否可以上传3、客户端请求第一个Block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点，分别为dn1
2024-09-17云计算与大数据概论--金功勋
week4的 week5Hadoop介绍起源：Hadoopasasolution:Buildingblocks:Namenodeifothernodesfail:DataNode:Block1SecondaryNamenode:JobTracker：iffails：TopolosyclusterPig：Hive:PIGweek10week13：
2024-09-10Hadoop之HDFS读写流程
HDFS读写流程1.写入的流程1.Client客户端发送上传请求，通过RPC与NameNode建立通信，NameNode检查该用户是否有上传权限，以及上传的文件是否在HDFS对应的目录下重名，如果这两者有任意一个不满足，则直接报错，如果两者都满足，则返回给客户端一个可以上传的信息；2.Client根据文件的大
2024-09-092.HDFS
HDFS一.HDFS概述1.HDFS的产生背景和定义(1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式管理系统.HDFS只是分布式文件管理系统中的一种
2024-08-28Hadoop生态圈（三）- HDFS（分布式文件系统）
目录设计目标特性HDFS基本原理NameNode概述DataNode概述HDSF读写操作HDFS写数据流程HDFS读数据流程HDFS元数据管理HDFSshellHDFS解决的是海量存储的问题设计目标：故障是常态，因此故障的检测和自动快速恢复是核心适合批量处理，注重数据访问的高吞吐量。一旦写入
2024-08-17每周总结
学习HDFS（HadoopDistributedFileSystem）时，需要从架构原理、数据存储机制、操作实践以及性能优化等多个方面进行系统掌握。以下是学习HDFS时的重点内容：1.HDFS架构NameNode：负责管理文件系统的元数据（如文件名、目录结构、文件与数据块的映射、数据块的位置等）。了解NameNode的作用
2024-08-16HDFS的编程
一、HDFS原理HDFS（HadoopDistributedFileSystem）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般，是最基础的一部分，因为它涉及到数据存储，MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统，以流式数据访问模