首页 > 系统相关 >Ubuntu22安装Hadoop完全分布式集群

Ubuntu22安装Hadoop完全分布式集群

时间:2022-11-01 22:24:29浏览次数:40  
标签:hadoop yarn Hadoop master HOME Ubuntu22 HADOOP 集群 分布式

Ubuntu22.04安装Hadoop完全分布式集群

1. 网络配置

需要修改四处,windows(宿主机),vmware,和虚拟机ubuntuNAT模式)

  1. windows,设置vmware8的ipv4选项即可

  2. vmware的ip设置和windows是一样的,网关都是192.168.5.2,还有NAT网络设置

  3. ubuntu的主要任务就是

  • 把DHCP换成静态IP(这部分要看具体集群配置,比如设置master和slave1,slave2,则可以分别分配ip为192.168.5.11,192.168.5.12,192.168.5.13
  • 再改改网关gateway和DNS(这部分和上面是一样的)
  • 然后为ip地址起个别名,即修改hosts,添加映射
cd /etc/netplan/ && ll
vim 01-network-manager-all.yaml
# 把以下内容粘贴上
# Let NetworkManager manage all devices on this system
network:
    ethernets:
        ens33:                    ## 网卡名,要改对
            dhcp4: false
            addresses:
              - 192.168.5.11/24   ## set static IP
            routes:
              - to: default
                via: 192.168.5.2  ## gateway
            nameservers:
              addresses: [8.8.8.8,8.8.4.4,192.168.3.1]
    version: 2
# 开启systemd-networkd服务
sudo systemctl start systemd-networkd
# 查看状态
sudo systemctl status systemd-networkd

# 重启网络服务
sudo netplan apply
#查看设定的ip是否生效
ifconfig | head -n 3

# 测试网络
ping -c 3 www.baidu.com
# 修改hostname
sudo vim /etc/hostname
# 设置ip映射
sudo vim /etc/hosts
# 把对应的ip添加到文件中
192.168.5.11 master
192.168.5.12 slave1
...
# 在windows中也添加ip映射
/C:\windows\system32\drivers\etc\hosts

2. 安装JDK与Hadoop

2.1 安装

# 将下载的安装包解压到 /opt下新建的文件夹module中
tar -zxvf jdk-XXXX-x64.tar.gz -C /opt/module
tar -zxvf hadoop-XXXX-x64.tar.gz -C /opt/module

2.2配置环境变量

# 新建.sh文件;因为\etc\profile会遍历\etc\profile.d文件夹下的所有.sh文件
sudo vim /etc/profile.d/my_env.sh
# 在文中添加如下内容:
# set JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
# set HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# source一下profie即可,因为他会自动遍历profile.d文件夹
source /etc/profile
# 测试一下是否配置成功
java -version
hadoop version
# 不行就reboot

2.3 克隆虚拟机

注意选则完全克隆,然后修改静态ip地址hostname

3. 配置完全分布式

3.1 配置SSH无密登录

# ssh-server是缺省的,注意安装一下
sudo apt install openssh-server
# 生成公钥和私钥,以rsa算法
ssh-keygen -t rsa
# 将公钥拷贝给别的机器
ssh-copyid [maser][slave1][slave2]

3.2 常用命令

3.2.1 scp(secure copy)

scp -r $pdir/$filename $user@$host:$pdir/$filename

拷贝 递归 要拷贝的文件 目标服务器:目的路径/名称

3.2.2 rsync(远程同步工具)

rsync -av $pdir/$filename $user@$host:$pdir/$filename

远程同步 参数 要拷贝的文件 目标服务器:目的路径/名称

-a表示归档拷贝,-v表示显示过程

rsync可以避免复制重复内容,所以比scp效率要高;同时支持符号链接

3.2.3 xsync(自己编写的脚本)

xsync:将当前文件自动分发到集群中所有机器的相同位置

# 在~/bin目录下创建脚本文件,因为这个目录已经被添加到环境变量中,可以全局使用。当然也可以自己添加环境变量
sudo vim /home/usr/bin/xsync

# 编写以下内容:
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi
#2. 遍历集群所有机器
for host in master slave1 slave2
do
    echo ====================  $host  ====================
    #3. 遍历所有目录,挨个发送
    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)
                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

# 设置可执行权限
sudo chmod 777 xsync
source /etc/profile

3.3 集群配置

3.3.1 集群规划

master slave1 slave2
HDFS NameNode
DataNode

DataNode
SecondaryNamenode
DataNode
YARN
NodeManager
ResourceManager
Nodemanager

NodeManager
历史服务器 HistoryServer
日志聚集

3.3.2 配置集群

共有四个用户自定义配置文件core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml,都在路径$HADOOP_HOME/etc/hadoop

3.3.2.1 core-site.xml
<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:8020</value>
    </property>
    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>
    <!-- 配置HDFS网页登录使用的静态用户为shuaikai -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>shuaikai</value>
    </property>
</configuration>
3.3.2.2 hdfs-site.xml
<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>master:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>slave2:9868</value>
    </property>
</configuration>
3.3.2.3 yarn-site.xml
<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>slave1</value>
    </property>
    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
                     <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    
    <!-- 开启日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!-- 设置日志聚集服务器地址 -->
    <property>  
        <name>yarn.log.server.url</name>  
        <value>http://master:19888/jobhistory/logs</value>
    </property>
    <!-- 设置日志保留时间为7天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>
3.3.2.4 mapred-site.xml
<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    
    <!-- 历史服务器端地址 -->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master:10020</value>
    </property>
    <!-- 历史服务器web端地址 -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master:19888</value>
    </property>
</configuration>
3.3.2.5 在集群上分发配置文件
xsync $HADOOP_HOME/etc/hadoop/

4. 群起集群

4.1 配置worker

vim $HADOOP_NOME/etc/hadoop/workers
# 把所有主机名添加进去,不要有多余的空格、换行
master
slave1
slave2
# 分发
xsync $HADOOP_NOME/etc/hadoop/workers

4.2 启动集群

如果集群是第一次启动,需要在master节点格式化NameNode

标签:hadoop,yarn,Hadoop,master,HOME,Ubuntu22,HADOOP,集群,分布式
From: https://www.cnblogs.com/shuaikai/p/16849364.html

相关文章

  • 【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式事务特别及问题分
    世界上解决一个计算机问题最简单的方法:“恰好”不需要解决它!分布式事务方案设计实际运用理论时进行架构设计时,许多人容易犯“手里有了锤子,看什么都觉得像钉子”的错误,设计方......
  • hadoop学习(2)
    HadoopYARN直接源于MRv1在几个方面的缺陷,扩展性受限、单点故障、难以支持MR之外的计算。多计算框架各自为战,数据共享困难。MR:离线计算框架,Storm:实时计算框架,Spark内存计......
  • Hadoop HDFS负载均衡
    Hadoop分布式文件系统(HadoopDistributedFileSystem),简称HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS是一个高......
  • springCloud分布式框架搭建教程
    集群:指一个项目部署在不同的服务器,通过负载均衡来访问,形成集群。分布式:指项目中不同的模块可以独立运行。 Springboot是什么?是推出解决传统框架配置文件繁杂冗余,基于maven......
  • 聊一聊分布式锁的设计模型
    简介: 什么是分布式锁?对于这个问题,相信很多同学是即熟悉又陌生。随着分布式系统的快速发展与广泛应用,针对共享资源的互斥访问也成为了很多业务必须要面对的需求,这个场景下......
  • 高并发和分布式中的幂等处理
    高并发和分布式中的幂等处理概念幂等(idempotent、idempotence)是一个数学与计算机学概念,常见于抽象代数中。在编程中,一个幂等操作的特点是其任意多次执行所产生的影响均与一......
  • 使用Docker一键搭建FastDFS+Nginx分布式文件服务器
    做过很多项目在图片上传上一直使用的是FastDFS,刚开始得知搭建一个这样的系统非常复杂,所以直接使用了淘淘商城的虚拟机。在后面的项目中,最终选择在在阿里云上自己搭建一个Fas......
  • HCIE-FusionBlock分布式块存储
    FusionStorageBlock分布式块存储华为存储分类全闪存(OceanStorDorado)混合闪存(OceanStorV3、OceanStorV5)边缘数据存储(FusionCube)分布式存储(OceanStor100D)......
  • WSL 中搭建 hadoop/hive 环境后,在 windows 宿主机下连接 hive 被拒绝
    报错只有:java.net.ConnectException:Connectionrefused这样简短的几行。其真实原因是(在windows11下),WSL有自己的(内部)IP地址。在WSL下执行ipaddr,然后在cmd下......
  • 分布式session
    1.Session共享问题1.1.Session原理Session就好比是某个银行的一个用户的账户,底层实现就是一个key-value存储的Map,一个Session存储了用户很多的k-v信息,就像去招商银行(某......