hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理

时间：2023-02-22 11:33:30浏览次数：45

标签：xml LABELNET mapred hadoop YARN site 任务调度

1.全局配置

上面的学习中，我们都是先进入到 /usr/local/hadoop 目录中，再执行 sbin/hadoop，实际上等同于运行/usr/local/hadoop/sbin/hadoop。我们可以将 Hadoop 命令的相关目录加入到 PATH 环境变量中，这样就可以直接通过 start-dfs.sh 开启 Hadoop，也可以直接通过 hdfs 访问 HDFS 的内容，方便平时的操作。

就好比我们配置的 Java 运行环境一样，之间可以在终端进行 javac的编译和 java运行命令！

1.1 配置～/.bashrc
有的配置的是 etc/profile 文件，也是可以的，但是有时会有出差错，还是配置在 bashrc 下吧。

yuan@LABELNET:/$ sudo gedit ~/.bashrc

配置path 如下：

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理_任务调度

1.2 保存退出使其生效

yuan@LABELNET:/$ source ~/.bashrc

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理_xml_02

1.3 测试查看 hdfs

yuan@LABELNET:/$ hdfs dfs -ls /user/hadoop/input

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理_xml_03

2.启用yarn

2.1 什么是 yarn ?

MapReduce V2，也称为 YARN，Yet Another Resource Negotiator , YARN 是从 MapReduce 中分离出来的，负责资源管理与任务调度。YARN 运行于 MapReduce 之上，提供了高可用性、高扩展性，YARN 的更多介绍在此不展开，有兴趣的可查阅相关资料。

我们之前通过 start-dfs.sh 启动 Hadoop，仅仅是启动了 MapReduce 环境，我们可以启动 YARN ，让 YARN 来负责资源管理与任务调度。

2.2 配置 mapred-site.xml

（1）重命名 mapred-site.xml

yuan@LABELNET:/usr/local/hadoop$ mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理_xml_04

(2) 配置

yuan@LABELNET:/usr/local/hadoop$ sudo gedit ./etc/hadoop/mapred-site.xml

配置如下：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

2.3

yarn-site.xml

yuan@LABELNET:/usr/local/hadoop$sudo gedit ./etc/hadoop/yarn-site.xml

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理_xml_05

配置如下：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        </property>
</configuration>

2.4 启动

yuan@LABELNET:~$ start-yarn.sh

2.5 开启历史服务器，才可以在浏览器中查看

yuan@LABELNET:~$ mr-jobhistory-daemon.sh start historyserver

2.6 jps 查看进程

开启后通过 jps 查看，可以看到多了 NodeManager 和 ResourceManager 两个后台进程；

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理_xml_06

2.7 查看任务调度情况

启动 YARN 之后，运行实例的方法还是一样的，仅仅是资源管理方式、任务调度不同。观察日志信息可以发现，不启用 YARN 时，是 “mapred.LocalJobRunner” 在跑任务，启用 YARN 之后，是 “mapred.YARNRunner” 在跑任务。启动 YARN 有个好处是可以通过 Web 界面查看任务的运行情况： http://localhost:8088/cluster

界面如下：

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理_xml_07

2.8 说明

YARN 主要是为集群提供更好的资源管理与任务调度，然而这在单机上体现不出价值，反而会使程序跑得稍慢些。因此在单机上是否开启 YARN 就看实际情况了。

伪分布式开不开启YARN ，都不会影响运行！

2.9 不使用 YARN

如果不想启动 YARN，务必把配置文件 mapred-site.xml 重命名，改成 mapred-site.xml.template，需要用时改回来就行。否则在该配置文件存在，而未开启 YARN 的情况下，运行程序会提示 “Retrying connect to server: 0.0.0.0/0.0.0.0:8032″ 的错误，这也是为何该配置文件初始文件名为 mapred-site.xml.template。

2.10 停止 YARN 和历史记录

yuan@LABELNET:~$ stop-yarn.sh

<pre name="code" class="html">yuan@LABELNET:~$mr-jobhistory-daemon.sh stop historyserver

3.总结

下篇将上篇的示例在 eclipse 中进行演示；

标签：xml,LABELNET,mapred,hadoop,YARN,site,任务调度
From： https://blog.51cto.com/u_15976424/6078834

hadoop - hadoop2.6 伪分布式 - eclipse 中配置和示例 wordcount
1.配置eclipse 1.1下载linux版的eclipse 百度云-大数据资料专辑 1.2解压可以手动提取，也可以命令提取：yuan@LABELNET:~/JAVA$sudotar-zx......
hadoop - hadoop2.6 伪分布式安装和ssh 安装
1.hadoop基本知识 1.1 特点：扩容能力：能可靠地存储和处理千兆字节的数据；成本低：可以通过普通机器组成的服务器来分发以及处理数据，这些服务器群总计可达千个节点......
Hadoop 及Spark 分布式HA运行环境搭建
作者：京东物流秦彪工欲善其事必先利其器，在深入学习大数据相关技术之前，先手动从0到1搭建一个属于自己的本地Hadoop和Spark运行环境，对于继续研究大数据生态圈各类技术具有重......
Centos7搭建hadoop3.3.4分布式集群
目录1、背景2、集群规划2.1hdfs集群规划2.2yarn集群规划3、集群搭建步骤3.1安装JDK3.2修改主机名和host映射3.3配置时间同步3.4关闭防火墙3.5配置ssh免密登录3.5.1......
spark-3.3.2-bin-hadoop3-scala2.13 Local模式
目标搭建单机开发环境，执行pyspark程序安装Anaconda3-2022.10-Linux-x86_64.sh安装pycharm-community-2022.3.2.tar.gz 环境OS：Ubuntu22基础包安......
常用包管理工具, 国内换源操作以及源地址收集(npm, yarn, pip, docker, linux, github
常用包管理工具的换源本文将保持更新,以适应不同时代软件源的变化;如发现软件源失效请留言提醒常用包管理工具,国内换源操作以及镜像源地址收集(npm,yarn,pip,doc......
Centos7系统编译Hadoop3.3.4
1、背景最近在学习hadoop，此篇文章简单记录一下通过源码来编译hadoop。为什么要重新编译hadoop源码，是因为为了匹配不同操作系统的本地库环境。2、编译源码2.1下载并解压......
XXL-JOB 分布式任务调度框架（Cron表达式、环境搭建、整合SpringBoot、广播任务与动态分
(目录)xxl-Job分布式任务调度1.概述1.1什么是任务调度我们可以先思考一下业务场景的解决方案：某电商系统需要在每天上午10点，下午3点，晚上8点发放一批优惠券。某银行......
大数据任务调度框架Oozie
1、Oozie简介1.1Oozie是大数据四大协作框架之一——任务调度框架，另外三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。1.2它能够提供对HadoopMapRed......
Hadoop序列化
序列化定义把内存中的数据持久化（把内存中的对象转换为字节码文件存储带磁盘上）和网络传输。反序列化定义反序列化就是把接收到的字节序列（或其它协议传输的数据）或......

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理

1.全局配置

2.启用yarn

3.总结

相关文章

赞助商

阅读排行

hadoop - hadoop2.6 伪分布式 - 全局配置 和 启用 YARN 进行任务调度与资源管理

1.全局配置

2.启用yarn

3.总结

相关文章

赞助商

阅读排行

hadoop - hadoop2.6 伪分布式 - 全局配置和启用 YARN 进行任务调度与资源管理