hadoop完全分布式

时间：2023-04-12 20:15:00浏览次数：33

标签：完全 selinux 配置 hadoop yarn sh dfs 分布式

准备工作

三台虚拟机，关闭防火墙，关闭selinux

查看防火状态 systemctl status firewalld

暂时关闭防火墙 systemctl stop firewalld

永久关闭防火墙 systemctl disable firewalld

查看 selinux状态 getenforce

暂时关闭 selinux setenforce 0

永久关闭 selinux 在/etc/selinux/config文件中将SELINUX改为disabled

修改主机名：hostnamectl set-hostname 主机名称

修改映射文件/etc/hosts 使得三台主机可以互ping

配置ssh免密登录

ssh-keygen -t rsa 生成私钥与公钥

ssh-copy-id hadoop01 将公钥复制到需要远程连接的机器上

注意：也需要分发给自己，否则启动hadoop进程的时候会要求输入密码

解压jdk与hadoop压缩包解压到/usr/local/src/目录下

配置jdk与Hadoop环境变量

如果觉得环境变量太长可以把后面的版本号删除

在/etc/profile文件中修改配置文件

修改Hadoop配置文件

evn文件 hadoop-env.sh　　yarn-env.sh　　mapred-env.sh

在env.sh中配置java环境

注意：三个env文件中都要配置java，否则无法启动集群

配置HDFS相关文件

配置core-site.xml

<configuration>
  <property>    <!-- 指定HDFS中NameNode的地址 -->
     <name>fs.defaultFS</name>
     <value>hdfs://master:9000</value>
  </property>
  <property>    <!-- 指定Hadoop运行时产生文件的存储目录 -->
     <name>hadoop.tmp.dir</name>
     <value>/usr/local/src/hadoop/data/tmp</value>
  </property>
</configuration>

配置hdfs-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>4</value>
        </property>
            <property>
                <name>dfs.namenode.name.dir</name>
                <value>/usr/local/src/hadoop/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/usr/local/src/hadoop/data</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>slave2:50090</value>
        </property>
</configuration>

配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn-resourcemanager.hostname</name>
                <value>slave1</value>
        </property>
</configuration>

配置mapred-site.xml

<configuration>
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>

配置slave文件写入其他主机名称

全部配置完之后分发给其他集群

scp命令说明

-r是传输文件夹，如果只是传输文件，可以不需要加-r

root是传输给root用户，如果要传输给其他用户也可以修改为其他用户的名称

@后面加主机名 hadoop02是主机名

：后面加传输的目录下

格式化NameNode

第一次开启必须要格式化

注意：如果需要重新格式化，将namenode存放的路径的目录删除即可

[hadoop@hadoop01 hadoop-2.7.2]$ bin/hdfs namenode -format

启动HDFS

在NameNode节点启动

[hadoop@hadoop01 hadoop-2.7.2]$ sbin/start-dfs.sh

[hadoop@hadoop01 hadoop-2.7.2]$ jps

启动Yarn

在Resourcemanager节点启动

[hadoop@hadoop02 hadoop-2.7.2]$ sbin/start-yarn.sh

[hadoop@hadoop02 hadoop-2.7.2]$ jps

使用jps查看进程与节点是否对应

	hadoop01 192.168.112.101	hadoop02 192.168.112.102	hadoop03 192.168.112.103
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

hadoop01 192.168.112.101

hadoop02 192.168.112.102

hadoop03 192.168.112.103

HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

启动HDFS：start-dfs.sh

启动Yarn：start-yarn.sh

关闭HDFS：stop-dfs.sh

关闭Yarn：stop-yarn.sh

最终全部启动

标签：完全,selinux,配置,hadoop,yarn,sh,dfs,分布式
From： https://www.cnblogs.com/gudeman/p/17311057.html

OpenEuler Linux 部署 HadoopHA
OpenEulerLinux部署HadoopHAopenEulerLinux部署HadoopHA主机名IP地址spark01192.168.28.11spark02192.168.28.12spark03192.168.28.13升级操作系统和软件yum-yupdate升级后建议重启安装常用软件yum-yinstallgccgcc-c++autoconfautom......
openEuler 单机部署 Hadoop SingleNode 模式
openEuler单机部署HadoopSingleNode模式升级操作系统和软件yum-yupdate升级后建议重启安装常用软件yum-yinstallgccgcc-c++autoconfautomakecmakemakersyncopenssh-servervimmanzipunzipnet-toolszlibzlib-developensslopenssl-develpcre-devel......
TDSQL 是什么？腾讯推出的分布式数据库 TDSQL 简介
TDSQL是什么？腾讯推出的分布式数据库TDSQL简介 0BY 董德多 ON 2022年5月12日数据库分布式数据库（TencentDistributedSQL，以下简称TDSQL）是腾讯打造的一款企业级数据库产品，具备强一致高可用、全球部署架构、高SQL兼容度、分布式水平扩展、高性能、完整的分布式事务支......
分布式监控平台------Zabbix
一、Zabbix概述作为一个运维，需要会使用监控系统查看服务器状态以及网站流量指标，利用监控系统的数据去了解上线发布的结果，和网站的健康状态。利用一个优秀的监控软件，我们可以:●通过一个友好的界面进行浏览整个网站所有的服务器状态●可以在Web前端方便的查看监控数据●可以回......
hadoop优化
#Hadoop优化##案例、天气预报>随机生成温度代码```javapackagecom.shujia.weather;importjava.text.DateFormat;importjava.text.ParseException;importjava.text.SimpleDateFormat;importjava.util.Date; publicclassRandomWeather{ publicstaticv......
04-分布式服务
一、分布式服务体系（一）分布式系统概述单体系统存在业务扩展性（任何业务的调整都需要发布整个系统）、性能扩展性（动态扩容对单体系统而言效率低下）、代码复杂度（修改一处代码容易引发连锁反应）的问题。系统扩展性，指的是当系统的业务需求发生变化时，我们对现在系统改......
分布式计算技术（下）：Impala、Apache Flink、星环Slipstream
实时计算的发展历史只有十几年，它与基于数据库的计算模型有本质区别，实时计算是固定的计算任务加上流动的数据，而数据库大多是固定的数据和流动的计算任务，因此实时计算平台对数据抽象、延时性、容错性、数据语义等的要求与数据库明显不同，面向实时计算的数据架构也就发展起来。本篇我......
【杂技术】关于intel AC 3168 无线网卡发WIFI 一段时间后 WIFI会完全卡死的情况
关于intelAC3168 无线网卡发WIFI一段时间后WIFI会完全卡死的情况更新驱动到21以后的版本就可以了我更新的版本是：21.80.0.4驱动日期：2020/1/30星期四用的360驱动大师更新的，去intel官网下载最新的（20.X.X.X）好像都不行，不知道intel官网是做什么的。发出来防止以为是系统还是......
#yyds干货盘点#【愚公系列】2023年04月 .NET CORE工具案例-分布式服务的健康检查系统
前言1.健康检查系统来源背景互联网产品对用户体验提出了很高的要求，但常常由于技术侧原因，发生服务响应慢或者服务不可用等一系列影响用户体验的问题，导致业务中断，影响收入。影响服务不可用和响应慢的因素很多，可能是服务硬件损坏、光纤被挖断，可能是请求量过大导致数据库CPU负载、磁......
分布式计算技术（上）：经典计算框架MapReduce、Spark 解析
当一个计算任务过于复杂不能被一台服务器独立完成的时候，我们就需要分布式计算。分布式计算技术将一个大型任务切分为多个更小的任务，用多台计算机通过网络组装起来后，将每个小任务交给一些服务器来独立完成，最终完成这个复杂的计算任务。本篇我们介绍两个经典的计算框架MapReduce和Sp......