首页 > 系统相关 >生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程

时间:2023-04-09 16:38:08浏览次数:52  
标签:12 10.170 重装系统 导致系统 db datanode namenode CDH pro

原因:因为主机扩容内存重启以后发现有七台服务器无法进入系统,重启之前Centos7的启动项被修改过导致无法重启,只能重新安装操作系统,但是HDFS的数据是保存到data盘中.

系统OS:CentOS Linux release 7.6.1810 (Core) 
CDH版本:6.2.1
重新安装操作系统的服务器
10.170.12.43 db-pro-datanode-12-43 
10.170.12.42 db-pro-datanode-12-42 
10.170.12.41 db-pro-datanode-12-41 
10.170.12.40 db-pro-datanode-12-40 
10.170.12.39 db-pro-datanode-12-39 
10.170.12.38 db-pro-datanode-12-38 
10.170.12.37 db-pro-datanode-12-37 
无法重启后的故障:
scm-server正常
CDH元数据库分离的正常

一、停掉所有的服务

systemctl stop cloudera-scm-server 
systemctl stop cloudera-scm-agent

二、mysql scm库数据库备份更改主机名

cat  /etc/hosts
10.170.12.36 db-pro-namenode-12-36  
10.170.12.37 db-pro-namenode-12-37  
10.170.12.38 db-pro-datanode-12-38  
10.170.12.39 db-pro-datanode-12-39  
10.170.12.40 db-pro-datanode-12-40  
10.170.12.41 db-pro-datanode-12-41  
10.170.12.42 db-pro-datanode-12-42  
10.170.12.43 db-pro-datanode-12-43  
10.170.12.44 db-pro-datanode-12-44  
10.170.12.45 db-pro-datanode-12-45  

因为原主机名不规范,要规范主要机,所以mysql库里面需要把主要机重新改掉
update HOSTS set name='db-pro-namenode-12-36' where host_id=1;
update HOSTS set name='db-pro-namenode-12-37' where host_id=2;
update HOSTS set name='db-pro-datanode-12-38' where host_id=3;
update HOSTS set name='db-pro-datanode-12-39' where host_id=4;
update HOSTS set name='db-pro-datanode-12-40' where host_id=5;
update HOSTS set name='db-pro-datanode-12-41' where host_id=6;
update HOSTS set name='db-pro-datanode-12-42' where host_id=7;
update HOSTS set name='db-pro-datanode-12-43' where host_id=8;
update HOSTS set name='db-pro-datanode-12-44' where host_id=9;
update HOSTS set name='db-pro-datanode-12-45' where host_id=10;

三、备份修复前的主机角色分配备份scm角色安装的到哪几个节点

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_重启

备份db-pro-namenode-12-37上安装的角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_重启_02

备份db-pro-namenode-12-38上安装的角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_03

备份db-pro-namenode-12-39上安装的角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_服务器_04

备份db-pro-namenode-12-40上安装的角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_05

备份db-pro-namenode-12-41上安装的角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_06

备份db-pro-namenode-12-42上安装的角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_服务器_07

备份db-prp-namenode-12-43上安装的角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_08

四、移除那几台主机的角色

1.移除hive角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_服务器_09

2.移除hue角色

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_服务器_10

3.移除oozie

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_11

4.移除yarn(同上)
5.移除hdfs(同上)
6.移除zk(同上)

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_12

五、重新安装好的服务器要加入集群

1.做免密

2.环境配置要和原来的集群保持一致

3.添加服务器角色,注意每台服务器分配的角色要和原来的保持一致(操作步骤和安装是一样的)


六、报错处理

1.报错信息1:Journal Storage Directory /hdfs/jn/nameservice1 not formatted,主要是因为其他两台没有jn的nameservice1中的文件信息

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_重启_13

解决方案: 1.登录12.36操作如下

cd  /hdfs/jn
tar -cvf nameservice1.tar.gz nameservice1/
scp nameservice1.tar.gz db-pro-namenode-12-37:/hdfs/jn/
scp nameservice1.tar.gz db-pro-datanode-12-38:/hdfs/jn/

登录12.37操作

cd  /hdfs/jn
tar -xvf nameservice1.tar.gz

登录12.38操作

cd  /hdfs/jn
tar -xvf nameservice1.tar.gz cd  /hdfs/jn
tar -xvf nameservice1.tar.gz

重启HDFS的JN和NN服务以后Namenode报错变成了以下报错 Cannot find any valid remote NN to service request!

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_14

出现以上问题的主要原因是因为原来更改了主机名,导致zk中的驻留信息还是以前的老服务器的名称 解决方案如下:
找一台namenode节点对zk进行格式化

sudo su - hdfs
hdfs zkfc -formatZK

七、重启所有的服务后,HDFS两个Namenode服务从两个备用变成了一个活动一个备用了,恢复了正常

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_服务器_15

八、其他角色也可以正常使用了,测试hive可以正常查询.

九、总结

1.要多看报错的内容,根据报错的内容一步步的修复

2.保证有一台namenode是可用的

3.保证各个组件的元数据库是正常使用的.

4.修复的时候要胆大心细,操作之前要写好操作方案去实施,不然思路上不清晰,修复起来会出现各种问题

5.修复之前要针对元数据库和组件分布到各个主机上要做好备份

欢迎加作者VX交流

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程_hdfs_16

标签:12,10.170,重装系统,导致系统,db,datanode,namenode,CDH,pro
From: https://blog.51cto.com/wang/6178883

相关文章

  • 重装系统之后的Django项目配置(WSL)
    重装系统之后的Django项目配置(WSL)升级固态硬盘之后,只能重装系统,这样一来就得重新来配置项目的开发环境。Linux环境下Django项目需要用到python解释器,在开发过程中,不同的项目可能会用到不同版本的库,为了防止环境下包的版本冲突,选择在windows的linux子环境中来安装多版本的pytho......
  • CDH+Hive部署
    CDH介绍:  CDH全称Cloudera’sDistributionIncludingApacheHadoop,是Cloudera公司提供的一个ApacheHadoop发行版。CDH将Hadoop与其他十几个关键的开源项目集成,并且加入了集群自动化安装、中心化管理、集群监控、报警等功能。Hive介绍:  Hive是基于Hadoop的一......
  • 重装系统环境配置
    重装系统环境配置------------------登录自动执行vim~/.bashrc写入以下ps1=\[\e]0;\u@\h:\w\a\]${debian_chroot:+($debian_chroot)}\[\033[01;32m\]\u@\h\[\033......
  • 【电脑操作技巧】重装系统之后的常用数据恢复方式和基础环境搭建
    这段时间我经历了人生中第一次(被迫)重装系统,有些数据的恢复花了好久才探索出来,因此,我想总结一下这几天的痛苦经历,重装系统或者购入新机的朋友可以看看。目录0.桌面恢复1.......
  • 重装系统后喇叭x号无声问题
     当时我的机器在这里有叹号,为三个。从网上找  这个进行后退版本,可选项里没有。最终通过  重启电脑后解决 ......
  • centos7通过CDH部署Hadoop
    一、角色分配及安装环境准备资料下载地址:链接:百度网盘1.机器及机器角色规划2.关闭防火墙及SELinux3.安装依赖(server)yuminstall-ycyrus-sasl-plaincyrus-sa......
  • 重装系统
    最近系统盘文件损坏,开机黑屏,折腾了很长时间,在此做个记录。制作U盘启动盘准备材料:U盘一个,大于8Gwin10系统镜像启动盘制作软件下载系统镜像,从官网下载win10系统镜像......
  • 苹果 MacBook 如何重装系统?
    与其他操作系统不同,苹果Mac系列电脑重装系统非常简单,无需其他准备工作,只需进入macOS系统的恢复界面即可根据选选项完成系统的安装。#如何进入macOS恢复界面不同CP......
  • CDH 部署
    一、服务器准备至少4台服务器(CentOS7.9最小版本安装)序号配置IP地址备注18核/16G内存/300GSSD硬盘192.168.110.101CDHMGR/Agent......
  • 安装宝塔面板导致系统两套底层依赖库问题
    2023年3月2日09:25:31最近遇到一个问题,在宝塔环境下安装出现一个很奇怪的问题,如果装了php就会出现两套依赖库[root@docker~]#rpm-qglibcglibc-2.17-326.el7_9.x86_6......