大数据场景下的Zookeeper集群的搭建

标签：bin opt zookeeper Zookeeper 集群服务器 leader 搭建

本篇文件将介绍如何搭建zookeeper集群，并集合大数据相关组件介绍zookeeper的功能

一、Zookeeper是做什么的，我们搭建它有什么用处

Zookeeper是一个分布式的服务管理框架，它负责存储和管理大家都关心的数据，基于观察者涉及模式，Zookeeper接受观察者的注册，一旦这些数据的状态发生了变化，Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。

二、大数据场景下会用到Zookeeper的组件

比如消息中间件kafka，kafka虽然以及开始弃用zookeeper，但我们仍能从中学到一些东西，kafka的broker启动后就会向zookeeper注册自身，注册后zookeeper就维护了一些数据比如/brokers/ids
这个路径下就放着broker的id号集合[1,2,3],zookeeper会协助kafka进行leader的选举以及维护集群信息。

还有常用的处理海量数据的Hbase也会使用zookeeper,Hbase的Hregionserver和Hmaster启动后就会向zookeeper注册自身，并且都会创建一个临时的ZNode节点，方便zookeeper管理它们的信息，同时hbase还存储它们的元数据信息方便客户端数据的读取，同时master会监控zookeeper中的ZNode方便分配Regions确保负载均衡

三、Zookeeper集群的搭建

（1）leader选举规则

在正式搭建集群时我们要了解，zookeeper的结构，zookeeper是有leader节点和follower节点的，对于leader和follower的选举在zookeeper启动时就因该选举出来，一个leader和多个follower

选举规则主要就是根据 (服务器总数 + 服务器的状态 + 投票数决定的)

集群启动时肯定是有顺序的，首先第一台机器启动立马就会给自己投票1票，并判断票数是不是大于服务器总数一半以上,比如有5台机器 ,1票不够半数以上，自己就保持looking状态 并且票数清除，等服务器2启动时，1和2都为自己投一票，1发现2的myid(后续配置)大于自身，把自己的票给服务器2，服务器2有2票还是没有半数以上，两者都looking状态，等服务器3来了，重复操作，服务器3就有3票达到半数以上，服务器3就称为leader,并且服务器1，2改为followeing状态，后续服务器启动，following状态的服务器不会将自己的票投给他们，所以服务器3就是最终的leader

（2）zookeeper集群搭建

1.首先我们搭建一般选择奇数台服务器，这样方便选举leader，我们使用3台服务器

2.上传Zookeeper的安装包到hadoop102服务器上，并压缩

-C 指定目标路径

tar -zxvf /opt/software/ apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module

3.将/opt/module下的zookeeper分发到hadoop103、hadoop104

xsync是shell脚本，脚本相关内容放到内容最后

xsync zookeeper-3.5.7

4.分发完毕后就可以开始修改配置了

首先 cd conf 目录下执行 mv zoo_sample.cfg zoo.cfg

5.编辑zoo.cfg

dataDir是存储zk的快照文件的地方，方便后续恢复数据

cluster是指定zookeeper集群使用的表示3台服务器
2888端口是zk集群内部的端口是leader和follower之间数据同步等操作使用的端口
3888端口是zk服务器之间选举leader使用的端口

#修改数据存储路径配置
dataDir=/opt/module/zookeeper-3.5.7/zkData
#增加如下配置
#######################cluster##########################
server.2=hadoop102:2888:3888
server.3=hadoop103:2888:3888
server.4=hadoop104:2888:3888

6.同步zoo.conf

xsync zoo.conf

7.在zkData下创建myid文件，这是为了选举leader对比使用的

myid中的内容就是数字并且一定要和zoo.cfg中配置的一样
比如我们配置的server.2=hadoop102:2888:3888
那么我们hadoop102的myid中内容就是2
hadoop103和hadoop104分别是3和4
8.启动zookeeper

bin/zkServer.sh start

9.不想使用bin/ 就配置环境遍历
export ZK_HOME=/opt/module/zookeeper-3.5.7
export PATH=$PATH:$HIVE_HOME/bin

四、相关脚本

xsync同步脚本

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if [ $pcount -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
# 也可以采用：
# for host in hadoop{102..104};
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================    $host    ====================
    #3. 遍历所有目录，挨个发送
    for file in $@
    do
        #4 判断文件是否存在
        if [ -e $file ]
        then
            #5. 获取父目录
            pdir=$(cd -P $(dirname $file); pwd)
            echo pdir=$pdir

            #6. 获取当前文件的名称
            fname=$(basename $file)
            echo fname=$fname

            #7. 通过ssh执行命令：在$host主机上递归创建文件夹（如果存在该文件夹）
            ssh $host "mkdir -p $pdir"

                        #8. 远程同步文件至$host主机的$USER用户的$pdir文件夹下
            rsync -av $pdir/$fname $USER@$host:$pdir
        else
            echo $file does not exists!
        fi
    done
done

zookeeper集群并起脚本

#!/bin/bash

case $1 in
"start"){
   for i in hadoop102 hadoop103 hadoop104
   do
        echo ---------- zookeeper $i 启动 ------------
        ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start"
   done

};;
"stop"){
   for i in hadoop102 hadoop103 hadoop104
   do
        echo ---------- zookeeper $i 停止 ------------
        ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop"
   done

};;

"status"){
   for i in hadoop102 hadoop103 hadoop104
   do
        echo ---------- zookeeper $i 状态 ------------
        ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status"
   done
};;
esac

标签：bin,opt,zookeeper,Zookeeper,集群,服务器,leader,搭建
From： https://blog.csdn.net/j218255/article/details/140872174