Hadoop jobhistory服务
概述
-
当MR程序在YARN上运行,YARN不会永久记录MR作业的日志信息,在YARN集群重启之后日志信息会消失;
-
MR程序分布式执行也不利于日志的集中查看,开启jobhistory服务再配合YARN日志聚集功能可以实现集中查询日志
-
jobhistory用来记录已经完成的MapReduce程序运行日志,日志信息存放于HDFS目录中;
-
jobhistory默认情况下是没有开启,需要在mapred-site.xml中配置,并手动启动服务。
配置修改
MapReduce jobhistory
JobHistory用来记录已经finished的mapreduce运行日志,日志信息存放于HDFS目录中,默认情况下没有开启此功能,需要在mapred-site.xml中配置并手动启动。
cd /export/server/hadoop-3.3.0/etc/hadoop
vim mapred-site.xml
- mapred-site.xml
vim mapred-site.xml
# MR JobHistory Server管理的日志的存放位置
<property>
<name>mapreduce.jobhistory.address</name>
<value>node1:10020</value>
</property>
# 查看历史服务器已经运行完的Mapreduce作业记录的web地址,需要启动该服务才行
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>node1:19888</value>
</property>
- 注意:因为涉及配置文件修改,需要集群每台机器都修改,并且在重启后生效
scp /export/server/hadoop-3.3.0/etc/hadoop/mapred-site.xml node2:/export/server/hadoop-3.3.0/etc/hadoop/
scp /export/server/hadoop-3.3.0/etc/hadoop/mapred-site.xml node3:/export/server/hadoop-3.3.0/etc/hadoop/
yarn jobhistory
yarn的日志聚集功能:
- yarn-site.xml
<!-- 开启日志聚集 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置yarn历史服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://node1:19888/jobhistory/logs</value>
</property>
<!-- 保存的时间7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
修改集群中的每台机器:
scp /export/server/hadoop-3.3.0/etc/hadoop/yarn-site.xml node2:/export/server/hadoop-3.3.0/etc/hadoop/
scp /export/server/hadoop-3.3.0/etc/hadoop/yarn-site.xml node3:/export/server/hadoop-3.3.0/etc/hadoop/
jobhistory 服务启停
- 注意jobhistory服务并不受Hadoop集群启停命令控制,需要单独启动、单独关闭。
#hadoop2.x版本命令
mr-jobhistory-daemon.sh start|stop historyserver
#hadoop3.x版本命令
mapred --daemon start|stop historyserver
[root@node1 ~]# jps
13794 JobHistoryServer
13060 DataNode
12922 NameNode
13436 NodeManager
13836 Jps
13327 ResourceManager
标签:xml,服务,jobhistory,Hadoop,hadoop,server,export,site
From: https://www.cnblogs.com/luoluoange/p/18080243