首页 > 编程语言 >0526-6.1-如果你不小心删了一个NameNode1

0526-6.1-如果你不小心删了一个NameNode1

时间:2022-10-04 13:33:52浏览次数:103  
标签:HDFS 0526 JournalNode 启用 NameNode1 集群 6.1 NameNode HA

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。


Fayson的github:

​https://github.com/fayson/cdhproject​


提示:代码块部分可以左右滑动查看噢


1

文档编写目的


在启用了HDFS HA的集群,2个NameNode节点上一般都会部署三个角色:NameNode,JournalNode和Failover Controller。在实际生产中,我们有时会碰到一个情况,你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去的时候,发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况,然后尝试去解决,即先删除一个NameNode,然后如何通过配置将该NameNode重新加回到HDFS服务中。


  • 测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作


2

模拟异常


1.首先Fayson准备一个正常的CDH6.1的集群,并且HDFS已经启用了HA。


0526-6.1-如果你不小心删了一个NameNode1_hadoop


2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode,JournalNode和Failover Controller服务。


0526-6.1-如果你不小心删了一个NameNode1_hadoop_02

0526-6.1-如果你不小心删了一个NameNode1_hadoop_03


3.删除这三个角色,注意下表已经少了这三个角色。


0526-6.1-如果你不小心删了一个NameNode1_重启_04


4.这是HDFS服务直接报错了。


3 个验证错误。
Quorum Journal 需要至少三个 JournalNode
Quorum Journal 需要奇数的 JournalNode
Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 个验证警告。
在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。


0526-6.1-如果你不小心删了一个NameNode1_hdfs_05


3

故障修复方法1


1.我们选择HDFS服务,然后点击“操作”,发现虽然是HDFS HA的集群,操作列表显示却是“启用High Availability”,实际应该是“禁用High Availability”,应该是因为手动删除了一个NameNode后引起的。


0526-6.1-如果你不小心删了一个NameNode1_重启_06


2.我们先尝试点击该按钮,尝试重新启用HDFS的HA。


0526-6.1-如果你不小心删了一个NameNode1_hdfs_07

0526-6.1-如果你不小心删了一个NameNode1_重启_08


这里我们选择之前的删掉的NameNode和JournalNode节点

ip-172-31-9-113.ap-southeast-1.compute.internal


0526-6.1-如果你不小心删了一个NameNode1_hadoop_09

0526-6.1-如果你不小心删了一个NameNode1_hadoop_10

0526-6.1-如果你不小心删了一个NameNode1_重启_11


报错,启用失败,实际其实我们已经选择了三个JournalNode,但仍旧报错需要3个JournalNode,返回,我们继续尝试。


4

故障修复方法2


1.从以下界面把删掉的NameNode,JournalNode和Failover Controller的三个角色再给加回去。


0526-6.1-如果你不小心删了一个NameNode1_hadoop_12


2.点击添加角色实例,并相应的选择之前删掉NameNode,JournalNode和Failover Controller角色所在的主机ip-172-31-9-113.ap-southeast-1.compute.internal


0526-6.1-如果你不小心删了一个NameNode1_hadoop_13

0526-6.1-如果你不小心删了一个NameNode1_hadoop_14


3.点击“继续”


0526-6.1-如果你不小心删了一个NameNode1_重启_15


4.点击“完成”


0526-6.1-如果你不小心删了一个NameNode1_hadoop_16


5.直接重启HDFS服务,尝试拉起刚刚新加的三个角色


0526-6.1-如果你不小心删了一个NameNode1_hdfs_17


还是失败。


6.进入ip-172-31-9-113.ap-southeast-1.compute.internal节点所在的NameNode配置页面。


0526-6.1-如果你不小心删了一个NameNode1_hadoop_18


选择“配置”标签页


0526-6.1-如果你不小心删了一个NameNode1_hadoop_19


在“NameNode Nameservice”配置项中输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。


0526-6.1-如果你不小心删了一个NameNode1_hadoop_20


7.在“Quorum Journal 名称”配置项也输入nameservice1,这里根据你集群启用HA后的实际情况nameservice的名字输入,然后保存。


0526-6.1-如果你不小心删了一个NameNode1_hdfs_21


8.勾选“启用自动故障转移”,然后保存。


0526-6.1-如果你不小心删了一个NameNode1_hadoop_22


9.回到HDFS服务的实例页面,发现之前的错误已经消失了。


0526-6.1-如果你不小心删了一个NameNode1_hadoop_23


10.回到CM主页重新部署客户端,并重启集群所有服务。


0526-6.1-如果你不小心删了一个NameNode1_hadoop_24

0526-6.1-如果你不小心删了一个NameNode1_hadoop_25

0526-6.1-如果你不小心删了一个NameNode1_hadoop_26

0526-6.1-如果你不小心删了一个NameNode1_重启_27


重启成功,集群恢复正常。


0526-6.1-如果你不小心删了一个NameNode1_hdfs_28


11.HDFS验证,一切正常。


0526-6.1-如果你不小心删了一个NameNode1_hdfs_29


提示:代码块部分可以左右滑动查看噢


为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。



推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

0526-6.1-如果你不小心删了一个NameNode1_重启_30

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操


标签:HDFS,0526,JournalNode,启用,NameNode1,集群,6.1,NameNode,HA
From: https://blog.51cto.com/u_14049791/5731206

相关文章

  • 0641-5.16.1-如何禁用CDH5.16.1的Kerberos
    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:​​https://github.com/fayson/cdhproject​​提示:代码块部分可......
  • 0639-6.1.1-Spark读取由Impala创建的Parquet文件异常分析
    作者:冉南阳1问题重现测试环境:1.RedHat7.42.CDH6.1.13.使用root进行操作1.使用Impala创建Parquet表并插入数据。createtabletest_parquet(idint,namestring)storedasp......
  • 0637-5.16.1-CDH集群中var目录占用空间大问题分析
    作者:唐辉1文档编写目的Fayson今天在观察集群的时候,发现CM节点/var目录使用空间异常的大,使用率达到93%,为防止目录空间使用满,导致CM界面告警。于是对该目录进行详细分析测试......
  • 0565-6.1.0-NFS异常导致Host Monitor及Agent服务错误
    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:​​https://github.com/fayson/cdhproject​​提示:代码块部分可......
  • 0555-6.1.0-使用Python并发访问认证和非认证集群
    作者:李继武1文档编写目的Fayson在前面的文章《​​0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群​​》和《​​0554-6.1.0-同一java进程中同时访问认证和非认证......
  • 0530-6.1-如何只是迁移NameNode或JournalNode
    温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。Fayson的github:​​https://github.com/fayson/cdhproject​​提示:代码块部分可......
  • com.panie 项目开发随笔(NoF)_环境搭建(2016.12.29)
    (一)最近做的框架一直在spring+springmvc+mybatis的基础上,使用框架的好处自然是简化了自己的开发工作,定义好大的结构体系后就在里面套用方法了!可是框架的毛病......
  • 【青春不老 6.1快乐】WIN10自带互联网远程控制利器
    尊重原创勿抄袭勿私放其他平台2020.6.1星期一在这样一个欢乐的日子里,剑指工控恭祝所有小朋友、大朋友们儿童节快乐!愿我们所有工控人的小朋友们幸福、健康成长!愿我们所有工......
  • Q4.4.6.1. 区间最长不上升子串
    Q4.4.6.1.区间最长不上升子串BZOJ4491.我也不知道题目名字是什么差分,转化为连续区间上最长>=0或<=0的区间每个节点维护区间前缀最大值,后缀最大值,区间答案......
  • elasticsearch 5.6.16 x-pack license过期处理
    elasticsearch5.6.16x-packlicense过期处理访问官网申请免费license即可,地址为:https://register.elastic.co/marvel_register升级至6.3+版本,高版本的基础版该功......