首页 > 其他分享 >伪分布式运行模式

伪分布式运行模式

时间:2022-10-18 19:55:56浏览次数:54  
标签:HDFS daemon hdfs sbin yarn sh 模式 运行 分布式

启动HDFS并运行MapReduce程序

配置集群

1.core-site.xml
指定HDFS中NameNode的地址。
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://nodeb1(主机名):9000</value>
</property>
指定Hadoop运行时产生文件的存储路径
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/hadoop-2.7.2/data/tmp</value>
</property>
2.配置hadoop-env.sh
配置JAVA_HOME
3.配置hdfs-site.xml
指定HDFS副本数量
<property>
	<name>dfs.replication</name>(默认数量为3)
	<value>1</value>
</property>

启动伪分布式集群

格式化NameNode(只有第一次需要)
#bin/hdfs namenode -format
如果需要再次格式化:
1.关闭NameNode和DataNode
2.删除data、logs文件夹
3.重新格式化NameNode
启动NameNode
#sbin/hadoop-daemon.sh start namenode
启动DataNode
#sbin/hadoop-daemon.sh start datanode
查看集群运行情况
1.jps
2.ip:50070(在浏览器中访问)

HDFS的操作

创建多级路径:
# bin/hdfs dfs -mkdir -p /user/root/input
列出:
# bin/hdfs -ls /user/root/input
# bin/hdfs -ls -R /user/root/input
向HDFS上传文件:
# bin/hdfs dfs -put 源路径(本地文件系统) 目的路径(HDFS)
# bin/hdfs dfs -put ./wcinput/wc.input /user/root/input
基于HDFS运行WordCount程序
# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/ouput
输出HDFS上文件的内容
# bin/hdfs dfs -cat /user/root/output/part-r-00000

启动Yarn并运行MapReduce程序

配置集群

1.配置yarn-env.sh
配置JAVA_HOME
2.配置yarn-site.xml
Reducer获取数据的方式
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
指定Yarn的ResourceManager的地址
# echo $HOSTNAME
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>nodeb1</name>(主机名)
</property>
3.配置mapred-env.sh
配置JAVA_HOME
4.配置mapred-site.xml
将mapred-site.xml.template重命名为mapred-site.xml
指定MR运行在yarn上
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>
查看启动情况:
1.jps
2.ip:8088

启动集群

启动前必须保证NameNode和DataNode已经启动
启动ResourceManager
# sbin/yarn-daemon.sh start resourcemanager
启动Nodemanager
# sbin/yarn-daemon.sh start Nodemanager

配置历史服务器

配置集群

1.mapred-site.xml
历史服务器端地址
<property>
	<name>mapreduce.jobhistory.address</name>
	<value>hadoop1:10020</value>
</property>
历史服务器Web端地址
<property><name>mapreduce.jobhistory.webapp.address</name>
	<value>192.168.31.41:19888</value>(IP地址)
</property>

启动历史服务器

# sbin/mr-jobhistory-daemon.sh start historyserver
查看历史服务器是否启动:
1.jps
2.http://hadoop1(hostname):19888

配置日志的聚合(logs)

日志聚合的概念:应用运行完成之后,将程序运行的日志信息上传到HDFS

日志聚合的好处:可以方便地查看程序运行的详情,方便开发调试。

注意:开启日志聚合功能,需要重启NodeManager、ResourceManager和HistoryManager
关闭NodeManager、ResourceManager、HistoryManager
# sbin/mr-jobhistory-daemon.sh stop historyserver
# sbin/yarn-daemon.sh stop nodemanager
# sbin/yarn-daemon.sh stop resourcemanager
配置yarn-site.xml
日志聚合功能使能
<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>
日志保留时间设置为7天
<property>
	<name>yarn.log-aggression.retain-seconds</name>
	<value>604800</value>
</property>
重启NodeManager、ResourceManager、HistoryManager
# sbin/yarn-daemon.sh start nodemanager
# sbin/yarn-daemon.sh start resourcemanager
# sbin/mr-jobhistory-daemon.sh start historyserver

配置文件说明

Hadoop配置文件分为两类:默认配置文件和自定义配置文件。

只有用户想要修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

标签:HDFS,daemon,hdfs,sbin,yarn,sh,模式,运行,分布式
From: https://www.cnblogs.com/Lyiu7/p/16803864.html

相关文章