首页 > 其他分享 >hadoop完全分布式

hadoop完全分布式

时间:2023-04-12 20:15:00浏览次数:33  
标签:完全 selinux 配置 hadoop yarn sh dfs 分布式

准备工作

三台虚拟机,关闭防火墙,关闭selinux

查看防火状态 systemctl status firewalld

暂时关闭防火墙 systemctl stop firewalld

永久关闭防火墙 systemctl disable firewalld

查看 selinux状态 getenforce

暂时关闭 selinux setenforce 0

永久关闭 selinux 在/etc/selinux/config文件中将SELINUX改为disabled

修改主机名:hostnamectl set-hostname 主机名称

修改映射文件/etc/hosts 使得三台主机可以互ping

配置ssh免密登录

ssh-keygen -t rsa 生成私钥与公钥

 

 

 

 ssh-copy-id hadoop01 将公钥复制到需要远程连接的机器上 

注意:也需要分发给自己,否则启动hadoop进程的时候会要求输入密码

 

 

解压jdk与hadoop压缩包 解压到/usr/local/src/目录下

 

 

 

配置jdk与Hadoop环境变量

如果觉得环境变量太长可以把后面的版本号删除

 在/etc/profile文件中修改配置文件

修改Hadoop配置文件

evn文件    hadoop-env.sh  yarn-env.sh  mapred-env.sh

在env.sh中配置java环境

注意:三个env文件中都要配置java,否则无法启动集群

 

 

 

配置HDFS相关文件

配置core-site.xml

<configuration>
  <property>    <!-- 指定HDFS中NameNode的地址 -->
     <name>fs.defaultFS</name>
     <value>hdfs://master:9000</value>
  </property>
  <property>    <!-- 指定Hadoop运行时产生文件的存储目录 -->
     <name>hadoop.tmp.dir</name>
     <value>/usr/local/src/hadoop/data/tmp</value>
  </property>
</configuration>

 

配置hdfs-site.xml

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>4</value>
        </property>
            <property>
                <name>dfs.namenode.name.dir</name>
                <value>/usr/local/src/hadoop/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>/usr/local/src/hadoop/data</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>slave2:50090</value>
        </property>
</configuration>

配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn-resourcemanager.hostname</name>
                <value>slave1</value>
        </property>
</configuration>

配置mapred-site.xml

<configuration>
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>
</configuration>

配置slave文件  写入其他主机名称

 全部配置完之后分发给其他集群

 

 scp命令说明  

-r是传输文件夹,如果只是传输文件,可以不需要加-r

root是传输给root用户,如果要传输给其他用户也可以修改为其他用户的名称

@后面加主机名 hadoop02是主机名

:后面加传输的目录下

 

格式化NameNode

第一次开启必须要格式化

注意:如果需要重新格式化,将namenode存放的路径的目录删除即可

[hadoop@hadoop01 hadoop-2.7.2]$ bin/hdfs namenode -format

启动HDFS

在NameNode节点启动

[hadoop@hadoop01 hadoop-2.7.2]$ sbin/start-dfs.sh

[hadoop@hadoop01 hadoop-2.7.2]$ jps

启动Yarn

在Resourcemanager节点启动

[hadoop@hadoop02 hadoop-2.7.2]$ sbin/start-yarn.sh

[hadoop@hadoop02 hadoop-2.7.2]$ jps

 

使用jps查看进程与节点是否对应

 hadoop01 192.168.112.101hadoop02 192.168.112.102hadoop03 192.168.112.103
HDFS

NameNode

DataNode

DataNode

SecondaryNameNode

DataNode

YARN NodeManager

ResourceManager

NodeManager

NodeManager

 

启动HDFS:start-dfs.sh

启动Yarn:start-yarn.sh

关闭HDFS:stop-dfs.sh

关闭Yarn:stop-yarn.sh

 

 

 

 

 最终全部启动

 

标签:完全,selinux,配置,hadoop,yarn,sh,dfs,分布式
From: https://www.cnblogs.com/gudeman/p/17311057.html

相关文章

  • OpenEuler Linux 部署 HadoopHA
    OpenEulerLinux部署HadoopHAopenEulerLinux部署HadoopHA主机名IP地址spark01192.168.28.11spark02192.168.28.12spark03192.168.28.13升级操作系统和软件yum-yupdate升级后建议重启安装常用软件yum-yinstallgccgcc-c++autoconfautom......
  • openEuler 单机部署 Hadoop SingleNode 模式
    openEuler单机部署HadoopSingleNode模式升级操作系统和软件yum-yupdate升级后建议重启安装常用软件yum-yinstallgccgcc-c++autoconfautomakecmakemakersyncopenssh-servervimmanzipunzipnet-toolszlibzlib-developensslopenssl-develpcre-devel......
  • TDSQL 是什么?腾讯推出的分布式数据库 TDSQL 简介
    TDSQL是什么?腾讯推出的分布式数据库TDSQL简介 0BY 董德多 ON 2022年5月12日数据库分布式数据库(TencentDistributedSQL,以下简称TDSQL)是腾讯打造的一款企业级数据库产品,具备强一致高可用、全球部署架构、高SQL兼容度、分布式水平扩展、高性能、完整的分布式事务支......
  • 分布式监控平台------Zabbix
    一、Zabbix概述作为一个运维,需要会使用监控系统查看服务器状态以及网站流量指标,利用监控系统的数据去了解上线发布的结果,和网站的健康状态。利用一个优秀的监控软件,我们可以:●通过一个友好的界面进行浏览整个网站所有的服务器状态●可以在Web前端方便的查看监控数据●可以回......
  • hadoop优化
    #Hadoop优化##案例、天气预报>随机生成温度代码```javapackagecom.shujia.weather;importjava.text.DateFormat;importjava.text.ParseException;importjava.text.SimpleDateFormat;importjava.util.Date; publicclassRandomWeather{  publicstaticv......
  • 04-分布式服务
    一、分布式服务体系(一)分布式系统概述​单体系统存在业务扩展性(任何业务的调整都需要发布整个系统)、性能扩展性(动态扩容对单体系统而言效率低下)、代码复杂度(修改一处代码容易引发连锁反应)的问题。​系统扩展性,指的是当系统的业务需求发生变化时,我们对现在系统改......
  • 分布式计算技术(下):Impala、Apache Flink、星环Slipstream
    实时计算的发展历史只有十几年,它与基于数据库的计算模型有本质区别,实时计算是固定的计算任务加上流动的数据,而数据库大多是固定的数据和流动的计算任务,因此实时计算平台对数据抽象、延时性、容错性、数据语义等的要求与数据库明显不同,面向实时计算的数据架构也就发展起来。本篇我......
  • 【杂技术】关于intel AC 3168 无线网卡发WIFI 一段时间后 WIFI会完全卡死的情况
    关于intelAC3168 无线网卡发WIFI一段时间后WIFI会完全卡死的情况更新驱动到21以后的版本就可以了我更新的版本是:21.80.0.4驱动日期:2020/1/30星期四用的360驱动大师更新的,去intel官网下载最新的(20.X.X.X)好像都不行,不知道intel官网是做什么的。发出来防止以为是系统还是......
  • #yyds干货盘点#【愚公系列】2023年04月 .NET CORE工具案例-分布式服务的健康检查系统
    前言1.健康检查系统来源背景互联网产品对用户体验提出了很高的要求,但常常由于技术侧原因,发生服务响应慢或者服务不可用等一系列影响用户体验的问题,导致业务中断,影响收入。影响服务不可用和响应慢的因素很多,可能是服务硬件损坏、光纤被挖断,可能是请求量过大导致数据库CPU负载、磁......
  • 分布式计算技术(上):经典计算框架MapReduce、Spark 解析
    当一个计算任务过于复杂不能被一台服务器独立完成的时候,我们就需要分布式计算。分布式计算技术将一个大型任务切分为多个更小的任务,用多台计算机通过网络组装起来后,将每个小任务交给一些服务器来独立完成,最终完成这个复杂的计算任务。本篇我们介绍两个经典的计算框架MapReduce和Sp......