• 2024-11-04Hadoop高可用搭建
    搭建前准备(检查是否满足以下条件)1、关防火墙servicefirewalldstop2、时间同步yuminstallntpntpdate-us2c.time.edu.cn或者date-s201805033、免密钥(远程执行命令)在两个主节点生成密钥文件ssh-keygen-trsassh-copy-idipmaster-->master,node1,node2
  • 2024-11-03HDFS的读写流程
    HDFS的读写流程写数据1、宏观1、客户端发起请求到NameNode,调用Hadoop中的一个类叫做DistributedFileSystem创建对象,再利用这个对象通过RPC通信协议调用NameNode去创建一个没有blocks关联的新文件。在创建之前NameNode会做各种校验:比如该文件是否存在,客户端有无权限去创建...
  • 2024-11-01Hadoop基础知识整理
    一、HDFS1.HDFS概述Hadoop分布式系统框架中,首要的基础功能就是文件系统,在Hadoop中使用FileSystem这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSy
  • 2024-10-28九月二十五日
    在Hadoop生态系统中,有以下几个重要的角色:NameNode(NN):NameNode是Hadoop分布式文件系统(HDFS)的主节点,负责管理文件系统的元数据。它维护文件和目录的层次结构、权限、块的位置等信息,并处理客户端的文件系统请求。DataNode(DN):DataNode是HDFS的数据节点,负责存储和管理实际的文件数
  • 2024-10-22HDFS 重要机制之 checkpoint
    核心概念hdfscheckpoint机制对于namenode元数据的保护至关重要,是否正常完成检查点是评估hdfs集群健康度和风险的重要指标editslog:对hdfs操作的事务记录,类似于wal,editlog文件以edits_开头,后面跟一个txid范围段,并且多个editlog之间首尾相连,正在使用的editl
  • 2024-10-19hdfs的分布式存储原理
    1.想要把一个大文件存储到hdfs,首先进行划分,将文件划分为一个一个的block,这个block默认为512MB,可修改.2.备份(也就是副本)将文件划分后,一个block丢失则原来的大文件没有用了.为了确保文件的安全性,hdfs提供了副本,也就是备份,将文件划分之后hdfs默认将每一个block备份到
  • 2024-10-17hdfs集群的shell操作
    1.进程启停管理:一键启动hdfs集群: start-dfs.sh一键关闭hdfs集群: stop-dfs.sh单独控制进程启停:hadoop-daemon.sh(start|status|stop)(namenode|datanode|secondarynamenode)     或者hadoop--daemon(start|status|stop)(namenode|datanode
  • 2024-10-13windows下安装部署 hadoop
     一、安装下载1.首先在hadoop官网下载一个稳定版本,选择binary包官网地址:https://hadoop.apache.org/releases.html下载下来是tar.gz文件,用winrar解压即可。2.因为这个压缩包是forlinux系统的,win下还需要安装几个dllwinutils, 下载地址:https://www.jianguoyun.com/p/Dcs2
  • 2024-09-30Hadoop集群的高可用(HA):NameNode和resourcemanager高可用的搭建
    文章目录一、NameNode高可用的搭建1、免密配置2、三个节点都需要安装psmisc3、检查三个节点是否都安装jdk以及zk4、检查是否安装了hadoop集群5、修改hadoop-env.sh6、修改core-site.xml7、修改hdfs-site.xml8、检查workers文件是否为三台服务9、分发给其他两个节点10、
  • 2024-09-26HDFS NAMENODE 安全模式
    一、安全模式现象探究1.1 关闭所有服务,使用命令单独启动服务使用hdfs--daemon命令逐个进程启动集群,观察现象1.首先启动namenodestop-all.shjpshdfs--daemonstartnamenodejpshadoopfs-ls/#使用ls浏览时正常显示hadoopfs-cat/test.txt#使用cat查看数
  • 2024-09-26Hadoop高可用集群搭建
    一、HDFSHA简介1.1 QJM简介1.QuorumJournalManager(仲裁日志管理器),是Hadoop官方推荐的HDFSHA解决方案之一2.使用zookeeper中ZKFC来实现主备切换;3.使用JournalNode(JN)集群实现editslog的共享以达到数据同步的目的1.2主备切换问题解决方案--ZKFailoverController(zkfc)ZKFailo
  • 2024-09-25HDFS NameNode元数据管理
    一、什么是元数据在HDFS中,元数据主要指的是文件相关的元数据,由NameNode管理维护。从广义的角度来说,因为NameNode还需要管理众多DataNode节点,因此DataNode的位置和健康状态信息也属于元数据。二、元数据管理概述1.文件相关元数据类型在HDFS中,文件相关元数据具有两种类型:文件自身属性
  • 2024-09-23Hadoop三大组件之HDFS(一)
    1.HDFS的架构HDFS(HadoopDistributedFileSystem)采用主从架构,由一个NameNode(主节点)和多个DataNode(从节点)组成。NameNode负责管理数据块映射信息(如文件名、文件目录、权限、块位置等)并配置副本策略,而DataNode负责存储实际的数据块。SecondaryNameNode辅助NameNode进行元
  • 2024-09-19Hadoop Windows下安装
    1.下载winutils:https://github.com/s911415/apache-hadoop-3.1.0-winutils,替换bin文件hadoop:3.2.0tar解压2.环境变量hadoopversion验证问题:Error:java_homeisincorrectlyset解决:由于jdk在C盘引起:hadoop-env.cmd加入setJAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_112
  • 2024-09-18Hadoop(十三)DataNode
    一、DataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳2、DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息3、心跳是每3秒一次,心跳返回结果带有
  • 2024-09-18Hadoop(十二)NameNode 和 SecondaryNameNode
    一、NN和2NN工作机制1、NameNode中的元数据存储在哪里?存储在NameNode节点的磁盘中会导致效率过低,因为经常需要进行随机访问和响应客户请求;存储在内存中,一旦元数据丢失,整个集群就无法工作,也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件(只进行追加操作,效率很
  • 2024-09-18Hadoop(十一)HDFS 读写数据流程
    HDFS读写数据流程一、写数据流程1、客户端通过DistributedFileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在2、NameNode返回是否可以上传3、客户端请求第一个Block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点,分别为dn1
  • 2024-09-17云计算与大数据概论--金功勋
    week4的  week5Hadoop介绍起源:Hadoopasasolution:Buildingblocks:Namenodeifothernodesfail:DataNode:Block1SecondaryNamenode:JobTracker:iffails:TopolosyclusterPig:Hive:PIGweek10week13:
  • 2024-09-10Hadoop之HDFS读写流程
    HDFS读写流程1.写入的流程1.Client客户端发送上传请求,通过RPC与NameNode建立通信,NameNode检查该用户是否有上传权限,以及上传的文件是否在HDFS对应的目录下重名,如果这两者有任意一个不满足,则直接报错,如果两者都满足,则返回给客户端一个可以上传的信息;2.Client根据文件的大
  • 2024-09-092.HDFS
    HDFS一.HDFS概述1.HDFS的产生背景和定义(1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到 更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系 统来管理多台机器上的文件,这就是分布式管理系统.HDFS只是分布式文 件管理系统中的一种
  • 2024-08-28Hadoop生态圈(三)- HDFS(分布式文件系统)
    目录设计目标特性HDFS基本原理NameNode概述DataNode概述HDSF读写操作HDFS写数据流程HDFS读数据流程HDFS元数据管理HDFSshellHDFS解决的是海量存储的问题设计目标:故障是常态,因此故障的检测和自动快速恢复是核心适合批量处理,注重数据访问的高吞吐量。一旦写入
  • 2024-08-17每周总结
    学习HDFS(HadoopDistributedFileSystem)时,需要从架构原理、数据存储机制、操作实践以及性能优化等多个方面进行系统掌握。以下是学习HDFS时的重点内容:1.HDFS架构NameNode:负责管理文件系统的元数据(如文件名、目录结构、文件与数据块的映射、数据块的位置等)。了解NameNode的作用
  • 2024-08-16HDFS的编程
    一、HDFS原理HDFS(HadoopDistributedFileSystem)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模