• 2024-09-26HDFS NAMENODE 安全模式
    一、安全模式现象探究1.1 关闭所有服务,使用命令单独启动服务使用hdfs--daemon命令逐个进程启动集群,观察现象1.首先启动namenodestop-all.shjpshdfs--daemonstartnamenodejpshadoopfs-ls/#使用ls浏览时正常显示hadoopfs-cat/test.txt#使用cat查看数
  • 2024-09-26Hadoop高可用集群搭建
    一、HDFSHA简介1.1 QJM简介1.QuorumJournalManager(仲裁日志管理器),是Hadoop官方推荐的HDFSHA解决方案之一2.使用zookeeper中ZKFC来实现主备切换;3.使用JournalNode(JN)集群实现editslog的共享以达到数据同步的目的1.2主备切换问题解决方案--ZKFailoverController(zkfc)ZKFailo
  • 2024-09-25HDFS NameNode元数据管理
    一、什么是元数据在HDFS中,元数据主要指的是文件相关的元数据,由NameNode管理维护。从广义的角度来说,因为NameNode还需要管理众多DataNode节点,因此DataNode的位置和健康状态信息也属于元数据。二、元数据管理概述1.文件相关元数据类型在HDFS中,文件相关元数据具有两种类型:文件自身属性
  • 2024-09-23Hadoop三大组件之HDFS(一)
    1.HDFS的架构HDFS(HadoopDistributedFileSystem)采用主从架构,由一个NameNode(主节点)和多个DataNode(从节点)组成。NameNode负责管理数据块映射信息(如文件名、文件目录、权限、块位置等)并配置副本策略,而DataNode负责存储实际的数据块。SecondaryNameNode辅助NameNode进行元
  • 2024-09-19Hadoop Windows下安装
    1.下载winutils:https://github.com/s911415/apache-hadoop-3.1.0-winutils,替换bin文件hadoop:3.2.0tar解压2.环境变量hadoopversion验证问题:Error:java_homeisincorrectlyset解决:由于jdk在C盘引起:hadoop-env.cmd加入setJAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_112
  • 2024-09-18Hadoop(十三)DataNode
    一、DataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳2、DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息3、心跳是每3秒一次,心跳返回结果带有
  • 2024-09-18Hadoop(十二)NameNode 和 SecondaryNameNode
    一、NN和2NN工作机制1、NameNode中的元数据存储在哪里?存储在NameNode节点的磁盘中会导致效率过低,因为经常需要进行随机访问和响应客户请求;存储在内存中,一旦元数据丢失,整个集群就无法工作,也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件(只进行追加操作,效率很
  • 2024-09-18Hadoop(十一)HDFS 读写数据流程
    HDFS读写数据流程一、写数据流程1、客户端通过DistributedFileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在2、NameNode返回是否可以上传3、客户端请求第一个Block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点,分别为dn1
  • 2024-09-17云计算与大数据概论--金功勋
    week4的  week5Hadoop介绍起源:Hadoopasasolution:Buildingblocks:Namenodeifothernodesfail:DataNode:Block1SecondaryNamenode:JobTracker:iffails:TopolosyclusterPig:Hive:PIGweek10week13:
  • 2024-09-10Hadoop之HDFS读写流程
    HDFS读写流程1.写入的流程1.Client客户端发送上传请求,通过RPC与NameNode建立通信,NameNode检查该用户是否有上传权限,以及上传的文件是否在HDFS对应的目录下重名,如果这两者有任意一个不满足,则直接报错,如果两者都满足,则返回给客户端一个可以上传的信息;2.Client根据文件的大
  • 2024-09-092.HDFS
    HDFS一.HDFS概述1.HDFS的产生背景和定义(1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到 更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系 统来管理多台机器上的文件,这就是分布式管理系统.HDFS只是分布式文 件管理系统中的一种
  • 2024-08-28Hadoop生态圈(三)- HDFS(分布式文件系统)
    目录设计目标特性HDFS基本原理NameNode概述DataNode概述HDSF读写操作HDFS写数据流程HDFS读数据流程HDFS元数据管理HDFSshellHDFS解决的是海量存储的问题设计目标:故障是常态,因此故障的检测和自动快速恢复是核心适合批量处理,注重数据访问的高吞吐量。一旦写入
  • 2024-08-17每周总结
    学习HDFS(HadoopDistributedFileSystem)时,需要从架构原理、数据存储机制、操作实践以及性能优化等多个方面进行系统掌握。以下是学习HDFS时的重点内容:1.HDFS架构NameNode:负责管理文件系统的元数据(如文件名、目录结构、文件与数据块的映射、数据块的位置等)。了解NameNode的作用
  • 2024-08-16HDFS的编程
    一、HDFS原理HDFS(HadoopDistributedFileSystem)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中的地位非同一般,是最基础的一部分,因为它涉及到数据存储,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模
  • 2024-08-16Hadoop 中的大数据技术:调优篇(3)
    HDFS—故障排除NameNode故障处理需求NameNode进程崩溃且存储的数据丢失,如何恢复NameNode?故障模拟终止NameNode进程[lzl@hadoop12current]$kill-919886删除NameNode存储的数据[[email protected]]$rm-rf/opt/module/hadoop-3.1.3/data/dfs/
  • 2024-08-12Hadoop 中的大数据技术:HDFS(2)
    Hadoop中的大数据技术:HDFS(2)续上一篇Hadoop中的大数据技术:HDFS(1)大家好!在为您带来精彩的技术干货之前,先给您推荐一个我精心运营的公众号[大数据深度洞察]。在这里,您将获取更多独家的技术分享、实用案例以及行业前沿资讯。亲爱的读者们,当您准备开启这篇充满价值的技术文章
  • 2024-08-02Zookeeper之HA
    HA步骤配置之前先拍摄快照(重要)快照名称设置为Zookeeper配置免密登录#在node1节点执行ssh-keygen-trsa#三次回车之后ssh-copy-idnode1ssh-copy-idnode2ssh-copy-idmaster关闭所有Hadoop#关闭Hadoopstop-all.sh在core-site.xml中添加如下配置:--注
  • 2024-07-30HDFS集群
    一、上传hadoop安装包到hdp-01集群任一节点(master) tar-zxvf软件包-C指定安装文件夹二、修改配置文件1.指定Hadoop的默认文件系统为hdfs2.指定hdfs的namenode节点为哪台机器3.指定namenode软件存储元数据的本地目录4.指定datanode软件存放文件块的本地目录三、进入
  • 2024-07-28生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程
    原因:因为主机扩容内存重启以后发现有七台服务器无法进入系统,重启之前Centos7的启动项被修改过导致无法重启,只能重新安装操作系统,但是HDFS的数据是保存到data盘中.系统OS:CentOSLinuxrelease7.6.1810(Core)CDH版本:6.2.1重新安装操作系统的服务器10.170.12.43db-p
  • 2024-07-22大数据实训第十七天笔记
    ZooKeeper的api的使用Hadoop的HA模式初始化ZooKeeper客户端创建节点查询节点不使用监听器使用监听器Hadoop的HA模式配置安装配置初始化初始化ZooKeeper客户端与HDFS和Hive的链接类似,但是Zookeeper中引入了监听器的机制,关于监听器的使用,会在后面提到//初始化zk的
  • 2024-07-20HDFS概述
    Hadoop的分布式文件系统hadoop的三大核心子项目(HDFS,YARN,MapReduce)之一,用来解决海量数据存储问题优点:海量数据存储,典型文件大小GB~TB,百万以上文件数量,PB以上数据规模(文件切分分散存储,128M)高容错(多副本策略),高可用(HA,安全模式),高可扩展(10K节点规模)构建成本低(构建在廉价商用机器
  • 2024-07-15mac整体配置安装hadoop
    根据自身芯片系统下载虚拟机 下载vm虚拟机:DownloadVMwareFusion|VMwareVMwareFusion对应的CentOS8下载的版本为:CentOS-8-XX-aarch64-dvd-custom-XX.iso。配置yum:参考博客:https://blog.csdn.net/qq_29759839/article/details/125860618   core-site.xml<configura
  • 2024-07-13第一周学习总结
    开篇概述随着计算机网络基础设施的完善,社交网络和电商的发展以及物连网的推进,产生了越来越多的大数据,使得人工智能最近几年也有了长足的发展(可供机器学习的样本数据量足够大了),大数据的存储和处理也越来越重要,国家对此也比较重视(可上网搜索关键字“大数据白皮书”关键字,以了解详细
  • 2024-07-13第二周学习总结
    分布式文件系统主要用来解决如下几个问题:读写大文件加速运算对于某些体积巨大的文件,比如其大小超过了计算机文件系统所能存放的最大限制或者是其大小甚至超过了计算机整个硬盘的容量的文件,这时需要将文件分割为若干较小的块,然后将这些块按照一定的规则分放在集群中若干台节点
  • 2024-07-13【hadoop】hadoop 2.x HA 高可用
    1.概述Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。对于只有一个NameNode的集群,若NameNode机器出现故障,则整个集群将无法使用,直到NameNode重新启动。NameNode主要在以下两个方面影响HDFS集群NameNode机器发生意外,如宕机,集群将无法使用,直到管理员重启