首页 > 系统相关 >生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程

时间:2024-07-28 09:25:22浏览次数:19  
标签:12 10.170 重装系统 导致系统 db datanode namenode CDH pro

原因:因为主机扩容内存重启以后发现有七台服务器无法进入系统,重启之前Centos7的启动项被修改过导致无法重启,只能重新安装操作系统,但是HDFS的数据是保存到data盘中.

系统OS:CentOS Linux release 7.6.1810 (Core) 
CDH版本:6.2.1
重新安装操作系统的服务器
10.170.12.43 db-pro-datanode-12-43 
10.170.12.42 db-pro-datanode-12-42 
10.170.12.41 db-pro-datanode-12-41 
10.170.12.40 db-pro-datanode-12-40 
10.170.12.39 db-pro-datanode-12-39 
10.170.12.38 db-pro-datanode-12-38 
10.170.12.37 db-pro-datanode-12-37 
无法重启后的故障:
scm-server正常
CDH元数据库分离的正常
一、停掉所有的服务
systemctl stop cloudera-scm-server 
systemctl stop cloudera-scm-agent
二、mysql scm库数据库备份更改主机名
cat  /etc/hosts
10.170.12.36 db-pro-namenode-12-36  
10.170.12.37 db-pro-namenode-12-37  
10.170.12.38 db-pro-datanode-12-38  
10.170.12.39 db-pro-datanode-12-39  
10.170.12.40 db-pro-datanode-12-40  
10.170.12.41 db-pro-datanode-12-41  
10.170.12.42 db-pro-datanode-12-42  
10.170.12.43 db-pro-datanode-12-43  
10.170.12.44 db-pro-datanode-12-44  
10.170.12.45 db-pro-datanode-12-45  

因为原主机名不规范,要规范主要机,所以mysql库里面需要把主要机重新改掉
update HOSTS set name='db-pro-namenode-12-36' where host_id=1;
update HOSTS set name='db-pro-namenode-12-37' where host_id=2;
update HOSTS set name='db-pro-datanode-12-38' where host_id=3;
update HOSTS set name='db-pro-datanode-12-39' where host_id=4;
update HOSTS set name='db-pro-datanode-12-40' where host_id=5;
update HOSTS set name='db-pro-datanode-12-41' where host_id=6;
update HOSTS set name='db-pro-datanode-12-42' where host_id=7;
update HOSTS set name='db-pro-datanode-12-43' where host_id=8;
update HOSTS set name='db-pro-datanode-12-44' where host_id=9;
update HOSTS set name='db-pro-datanode-12-45' where host_id=10;
三、备份修复前的主机角色分配备份scm角色安装的到哪几个节点

备份db-pro-namenode-12-37上安装的角色

备份db-pro-namenode-12-38上安装的角色

备份db-pro-namenode-12-39上安装的角色

备份db-pro-namenode-12-40上安装的角色

备份db-pro-namenode-12-41上安装的角色

备份db-pro-namenode-12-42上安装的角色

备份db-prp-namenode-12-43上安装的角色

四、移除那几台主机的角色
1.移除hive角色

2.移除hue角色

3.移除oozie

4.移除yarn(同上)
5.移除hdfs(同上)
6.移除zk(同上)

五、重新安装好的服务器要加入集群

1.做免密

2.环境配置要和原来的集群保持一致

3.添加服务器角色,注意每台服务器分配的角色要和原来的保持一致(操作步骤和安装是一样的)

六、报错处理

1.报错信息1:Journal Storage Directory /hdfs/jn/nameservice1 not formatted,主要是因为其他两台没有jn的nameservice1中的文件信息

解决方案: 1.登录12.36操作如下

cd  /hdfs/jn
tar -cvf nameservice1.tar.gz nameservice1/
scp nameservice1.tar.gz db-pro-namenode-12-37:/hdfs/jn/
scp nameservice1.tar.gz db-pro-datanode-12-38:/hdfs/jn/

登录12.37操作

cd  /hdfs/jn
tar -xvf nameservice1.tar.gz

登录12.38操作

cd  /hdfs/jn
tar -xvf nameservice1.tar.gz cd  /hdfs/jn
tar -xvf nameservice1.tar.gz

重启HDFS的JN和NN服务以后Namenode报错变成了以下报错 Cannot find any valid remote NN to service request!

出现以上问题的主要原因是因为原来更改了主机名,导致zk中的驻留信息还是以前的老服务器的名称 解决方案如下:
找一台namenode节点对zk进行格式化

sudo su - hdfs
hdfs zkfc -formatZK
七、重启所有的服务后,HDFS两个Namenode服务从两个备用变成了一个活动一个备用了,恢复了正常

八、其他角色也可以正常使用了,测试hive可以正常查询.
九、总结

1.要多看报错的内容,根据报错的内容一步步的修复

2.保证有一台namenode是可用的

3.保证各个组件的元数据库是正常使用的.

4.修复的时候要胆大心细,操作之前要写好操作方案去实施,不然思路上不清晰,修复起来会出现各种问题

5.修复之前要针对元数据库和组件分布到各个主机上要做好备份

标签:12,10.170,重装系统,导致系统,db,datanode,namenode,CDH,pro
From: https://blog.csdn.net/weixin_43566162/article/details/140746503

相关文章

  • 整合Apache Hudi+Mysql+FlinkCDC2.1+CDH6.3.0
    一、环境准备1.环境准备:flink1.13.1+hudi0.10+hive2.1.1+cdh6.3.0+mysql5.7+flinkcdc2.1+flinkweb平台二.编译hudi(这个编译是以前的一个测试版本,编译大同小异)1.使用git命令下载hudi0.10的代码steven@wangyuxiangdeMacBook-Pro~gitclonehttps://github.com/ap......
  • 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优
    基于CDH6.3.0搭建HiveonSpark及相关配置和调优Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差于Spark。通过搭建一个HiveOnSpark可以修改Hive底层的计算引擎,将Map......
  • 【windows11】笔记本电脑使用PE工具重装系统超详细步骤及常见问题
    因为一些原因昨天重装了一次系统,本来以为是一次简单快捷的重装,但是我们在重装系统的过程中遇到了一些问题,导致重装之后很多出现了一系列小毛病,一度以为自己没装成功,多次重装等烦恼。下面为大家附上部分教程及一些注意事项,相信大家参考别的教程配合可以很顺利地完成。第五步之......
  • SAP ABAP 写更改记录到表CDHDR/CDPOS 下篇
    表更改记录上篇写入表更改记录下篇发布日期:2024/07/11继上一篇的内容,用户测试的过程中发现,还是查不到写入记录。最后发现,我使用的系统环境,更改表equp时,对象类是QUOTEN2。基于此,当一个通过表TCDOB能查出多个对象类时,我们最好通过标准功能更改任意一条目标表的数据。再去查......
  • 重装系统后MySQL变回原来模样
    系统重装后保留mysql重装(保留原来数据)顺便换了一下安装位置此次安装采用的是压缩包安装版本:8.0.34注意:下面所有命令行均是在管理员身份下执行的!!!所遇问题环境问题,文件权限问题,服务没有相应控制功能问题解决方案环境问题问题描述:空有文件夹和曾经的数据,打开命令行却无法找......
  • 重装系统后要干嘛(软件篇)
    捯饬老家伙杉KMS激活windowsctrl+X管理员模式下开powershell安装密钥:slmgr.vbs-ipkFJ82H-XT6CR-J8D7P-XQJJ2-GPDD4执行密钥:slmgr.vbs-skmszh.us.to执行激活:slmgr/ato这里稍微记几个密钥(都是MSDN,我告诉你-做一个安静的工具站(itellyou.cn)里下载的),以后没事更新......
  • 重装系统——Windows系统U盘启动盘制作保姆级教程(MSDN自带纯净版)
    一、工具准备1、U盘:>8G(空的,会被覆盖)2、电脑:有网就行(网好点的,系统大小有3G以上,慢了估计要很久)如果重装电脑是激活的,重装后还是激活的。(应该吧,只拿了一台电脑做实验,专业版的)二、开始制作1、下载官方媒体工具打开网址:https://www.microsoft.com/zh-cn/software-download选......
  • 电脑怎么重装系统?一键重装系统,分享3个简单方法(2024 新版)
    在使用电脑的过程中,你是否也遇到了电脑严重卡顿,运行不稳定的问题呢?电脑系统重装,是许多用户在面对系统故障、运行缓慢或是想要清理系统垃圾时所选择的解决方案之一。尤其对于一些比较复杂的系统问题,一键重装系统成为了许多用户青睐的方法之一。然而电脑怎么重装系统呢?在本文中,我......
  • wnmp安装配置记录(重装系统重置后)
    一、windows10二、nginx安装与配置nginxnews开源网站下载稳定版本1.nginx下载完成解压,即安装成功2.进入安装目录,双击nginx.exe,启动nginx服务器3.浏览器中打开http://localhost,出现nginx欢迎页面即为成功 三、安装配置php1、进入PHP官网下载最新稳定版本,windows64位,非线......
  • 阿贝云免费云服务器重装系统
    之前在阿贝云申请了一个免费的云服务器用来测试OJ,用了一个月,说说的感觉吧。确实免费的,速度也很快(相对于我的需求来说),当然,如果你想申请免费的虚拟主机也可以,阿贝云也提供了免费的虚拟主机,看个人需求了。稳定性也很好,如果上传较大的数据还是会有些卡顿的,毕竟是免费的,咱要求也不能......