• 2024-10-22HDFS 重要机制之 checkpoint
    核心概念hdfscheckpoint机制对于namenode元数据的保护至关重要,是否正常完成检查点是评估hdfs集群健康度和风险的重要指标editslog:对hdfs操作的事务记录,类似于wal,editlog文件以edits_开头,后面跟一个txid范围段,并且多个editlog之间首尾相连,正在使用的editl
  • 2024-10-10hdfs小文件分析
    导出namenode的元数据文件,并将数据转成csv格式,逗号分割字段hdfsdfsadmin-fetchImage ./#将文件拉到本地hdfsoiv-ifsimage_0000000000243832876-ofsimage.csv-pDelimited -delimiter","  -Xmx30720m  #使用hdfs工具本地解析文件,我的镜像是30G,我就用了30的堆
  • 2024-09-25HDFS NameNode元数据管理
    一、什么是元数据在HDFS中,元数据主要指的是文件相关的元数据,由NameNode管理维护。从广义的角度来说,因为NameNode还需要管理众多DataNode节点,因此DataNode的位置和健康状态信息也属于元数据。二、元数据管理概述1.文件相关元数据类型在HDFS中,文件相关元数据具有两种类型:文件自身属性
  • 2024-08-12Hadoop 中的大数据技术:HDFS(2)
    Hadoop中的大数据技术:HDFS(2)续上一篇Hadoop中的大数据技术:HDFS(1)大家好!在为您带来精彩的技术干货之前,先给您推荐一个我精心运营的公众号[大数据深度洞察]。在这里,您将获取更多独家的技术分享、实用案例以及行业前沿资讯。亲爱的读者们,当您准备开启这篇充满价值的技术文章
  • 2024-03-12HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性
    HDFS读数据流程    事件描述:客户端要下载一个200m的数据文件,hdfs是如何读取的。   两个对象:一个客户端、一个集群   流程:       1.客户端创建一个分布式文件系统(DistributedFileSystem),向集群NameNode请求下载文件。       
  • 2024-01-23namenode内存过大的危害
    1、启动时间变长。NameNode的启动过程可以分成FsImage数据加载、editlogs回放、Checkpoint、DataNode的BlockReport几个阶段。数据规模较小时,启动时间可以控制在~10min以内,当元数据规模达到5亿(Namespace中INode数超过2亿,Block数接近3亿),FsImage文件大小将接近到20GB,加载FsImage数据
  • 2023-12-12Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析
    NameNode被格式化之后,将在NameNode目录下产生一些文件1.Fsimage文件Fsimage文件是HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息1.查看Fsimage文件1.oiv命令hdfsoiv-p文件类型-i镜像文件-o转换后文件的输出路径hdfs
  • 2023-11-01JournalNode元数据处理过程
    1.背景在Hadoop2.x之前,只有一台NameNode负责对外提供服务,另外一台secondaryNameNode只用于合并fsimage,不提供对外元数据服务。因此NameNode和secondaryNameNode都存在单点问题。为了解决secondaryNameNode单点问题,HDFS引入多个JournalNode服务存储操作日志,取代单台secondary
  • 2023-03-01HDFS NameNode元数据管理
    一、什么是元数据在HDFS中,元数据主要指的是文件相关的元数据,由NameNode管理维护。从广义的角度来说,因为NameNode还需要管理众多DataNode节点,因此DataNode的位置和健康状
  • 2022-11-24分布式文件系统HDFS 相关概念知识
    一、HDFS的局限性:1.不支持实时处理的任务需求。但Hbase满足实时处理需求。2.无法高效存储大量的小文件,因为是以索引结构保存到内存当中去。3.不支持多用户写入以及任意修
  • 2022-11-08namenode故障恢复
    一、dits和fsimage     首先要提到两个文件edits和fsimage,下面来说说他们是做什么的。集群中的名称节点(NameNode)会把文件系统的变化以追加保存到日志文件edits中。当名
  • 2022-11-0303-分布式文件系统HDFS
    目录​​一,HDFS简介​​​​1,什么是HDFS​​​​2,优缺点​​​​2.1优点​​​​2.2缺点​​​​二,HDFS原理​​​​1,系统架构​​​​1.1角色分工​​​​1.2设计思想
  • 2022-10-040482-HDFS上一次检查点异常分析
    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:​​https://github.com/fayson/cdhproject​​提示:代码块部分可
  • 2022-10-040464-如何离线分析HDFS的FsImage查找集群小文件
    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:​​https://github.com/fayson/cdhproject​​提示:代码块部分可