标签：hadoop HADOOP export HOME spark root Docker

Docker搭建hadoop和spark集群

本次集群的配置如下

Docker 25.0.3
JDK 1.8
Hadoop 3.1.2
Hive 3.1.2
mysql 8.0.1
mysql-connector-java-8.0.1.jar
hive_jdbc_2.5.15.1040

拉取docker镜像，初始化hadoop集群

拉取docker镜像,该镜像为ubuntu:22.04,已经安装好了hadoop

docker pull registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base

使用docker images可以查看已经拉取的镜像的列表

docker images

建立使用桥接模式的docker子网，一般来说下载完docker会在宿主机虚拟出一个172.17.0.0/16的子网出来，这里我们使用桥接模式创建了一个172.19.0.0/16的子网出来

docker network create --driver=bridge --subnet=172.19.0.0/16 hadoop

使用拉取的镜像，启动三个容器，分别是Master,Slave1,Slave2作为集群的三个节点

docker run -it --network  hadoop --ulimit nofile=65535 -h Slave1 --name Slave1 registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base bash
docker run -it --network hadoop  --ulimit nofile=65535 -h Slave2 --name Slave2 registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base bash
docker run -it --network hadoop --ulimit nofile=100000  -h Master --name Master -p 9870:9870 -p 8088:8088 -p 10000:10000 registry.cn-hangzhou.aliyuncs.com/hadoop_test/hadoop_base bash

使用dokcer ps -a查看所用容器的状态

docker ps -a

可以使用以下命令启动容器

docker start Master Slave1 Slave2

使用dokcer attach命令进入容器的bash

docker attach Master #Slave1 or Slave2

注意以下命令使用sudo是在非root用户下才需如此,默认是root用户,不需要使用sudo

进入容器内部,配置ubuntu的apt清华镜像源

备份源镜像文件

cp /etc/apt/sources.list /etc/apt/sources.list.bak

修改/etc/apt/sources.list, 添加国内镜像源

vi /etc/apt/sources.lists

deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic main restricted universe multiverse
 
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-updates main restricted universe multiverse
 
deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-backports main restricted universe multiverse

deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ bionic-security main restricted universe multiverse

（同步）更新软件仓库

apt-get update

#安装一些常用的服务与软件
apt-get install vim openssh-server

对三台容器的/etc/host进行修改,对主机名进行映射

vim /etc/host

在/etc/host文件中添加以下信息

172.19.0.2 Master
172.19.0.3 Slave1
172.19.0.4 Slave2

ssh配置，拉取的镜像已经生成好了公钥和私钥对，我们只需要修改几个参数，就可以实现容器之间还有容器与宿主机的通信

修改/etc/ssh/sshd_config，修改下面几种参数

PermitRootLogin = true # 允许使用root用户登录
PasswordAuthentication = yes
PubKeyAuthentication = yes

6.拉取的镜像的环境变量默认配置在/etc/profile中

/etc/profile

#java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
#hadoop
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_NAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

启用容器的时候默认不会source /etc/profile,因此需要在bash的配置文件中添加语句 source /etc/profile,ssh 服务默认也是不会启用的，还需要在 bash的配置文件中添加service ssh start

vim ~/.bashrc

添加以下内容

source /etc/profile
service ssh start

让环境变量生效

source ~/.bashrc

初始化hdfs,启动hadoop集群

初始化

hadoop namenode -format

启动全部和服务

start-all.sh

输入jps指令，如果能查看到以下进程则代表hadoop集群成功启用了

1104 ResourceManager
1456 NodeManager
774 SecondaryNameNode
326 NameNode
521 DataNode
1690 Jps

Spark集群搭建

拉取的镜像没有配置spark,手动配置

去官网下载spark

在宿主机中,将spark的压缩包闯入容器内部

docker cp spark-3.1.2-bin-hive3.1.2.tgz Master:/root

docker attach进入容器，解压到/usr/local/中

tar -xvf /root/spark-3.1.2-bin-hive3.1.2 /usr/local/

修改文件夹名称

mv spark-3.1.2-bin-hive3.1.2 spark

配置spark

进入spark/conf/

cd spark/conf

mv spark-env.sh.template spark-env.sh
vim spark-env.sh

添加以下内容

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

配置worker工作节点

vim wokrer

添加

Master
Slave1
Slave2

注意hadoop的guava与spark的guava包冲突，选择两者中高版本的，删除低版本的

这里hadoop的guava包版本比较高

cp /usr/local/hadoop/share/hadoop/common/lib/guava-27.0-jre.jar /usr/local/spark/jars 
mv /usr/local/spark/jars/guava-14.0.1.jar /usr/local/spark/jars/guava-14.0.1.jar.bak

将spark文件文件传输到其他节点上

scp -r /usr/local/spark Slave1:/usr/local
scp -r /usr/local/spark Slave2:/usr/local

启动spark

/usr/local/spark/sbin/start-all.sh

查看到以下信息

starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/logs/spark--org.apache.spark.deploy.master.Master-1-Master.out
Slave1: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Slave1.out
Slave2: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Slave2.out
Master: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-Master.out

pyspark 环境配置和任务提交

配置conda

选择conda来管理python虚拟环境

选择下载miniconda,更加轻量级的环境

wget https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh

安装miniconda

bash Miniconda3-latest-Linux-x86_64.sh

一直回车和yes即可，默认安装目录为 /root

如conda命令不生效请自行配置~/.bashrc

# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/root/miniconda3/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "/root/miniconda3/etc/profile.d/conda.sh" ]; then
        . "/root/miniconda3/etc/profile.d/conda.sh"
    else
        export PATH="/root/miniconda3/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<

其他节点(Slave1,Slave2)也要执行以上操作
4. 使用conda创建虚拟环境

conda create -n spark python==3.8

激活环境

conda activae spark

安装必要的库

pip install spark==3.1.2 # pyspark版本要和容器的spark版本一致
pip install numpy,flask,hdfs3

默认环境存储在/root/miniconda3/envs,需要将这份环境拷贝到其他节点

scp -r /root/minicond3/envs/spark Slave1:/root/miniconda3/envs 
scp -r /root/minicond3/envs/spark Slave2:/root/miniconda3/envs

其他问题 or BUG

如何映设端口

使用ssh的方法，使得容器的端口可以映射到宿主机

ssh -L 0.0.0.0:8080:0.0.0.0:8080 root@172.19.0.2

在宿主机器的浏览器输入0.0.0.0:8080 就可以查看spark集群的运行状况

如何让容器对外网暴露服务

在容器创建一个web程序flask.py

from flask import Flask, request

app = Flask(__name__)

# 定义路由和处理函数
@app.route('/')
def hello():
    return 'hello,world'


# 运行应用
if __name__ == '__main__':
    app.run(host="0.0.0.0", port=10000)

在容器内运行

python flask.py

在宿主机发送请求

curl 127.0.0.1:10000

标签：hadoop,HADOOP,export,HOME,spark,root,Docker
From： https://www.cnblogs.com/psz-github/p/18106960

利用Docker搭建多容器spark 和hadoop集群