伪分布式运行模式

标签：HDFS daemon hdfs sbin yarn sh 模式运行分布式

启动`HDFS`并运行`MapReduce`程序

配置集群

1.core-site.xml
指定HDFS中NameNode的地址。
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://nodeb1(主机名):9000</value>
</property>
指定Hadoop运行时产生文件的存储路径
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/hadoop-2.7.2/data/tmp</value>
</property>
2.配置hadoop-env.sh
配置JAVA_HOME
3.配置hdfs-site.xml
指定HDFS副本数量
<property>
	<name>dfs.replication</name>（默认数量为3）
	<value>1</value>
</property>

启动伪分布式集群

格式化NameNode(只有第一次需要)
#bin/hdfs namenode -format
如果需要再次格式化：
1.关闭NameNode和DataNode
2.删除data、logs文件夹
3.重新格式化NameNode
启动NameNode
#sbin/hadoop-daemon.sh start namenode
启动DataNode
#sbin/hadoop-daemon.sh start datanode
查看集群运行情况
1.jps
2.ip：50070（在浏览器中访问）

`HDFS`的操作

创建多级路径：
# bin/hdfs dfs -mkdir -p /user/root/input
列出：
# bin/hdfs -ls /user/root/input
# bin/hdfs -ls -R /user/root/input
向HDFS上传文件：
# bin/hdfs dfs -put 源路径（本地文件系统） 目的路径（HDFS）
# bin/hdfs dfs -put ./wcinput/wc.input /user/root/input
基于HDFS运行WordCount程序
# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/ouput
输出HDFS上文件的内容
# bin/hdfs dfs -cat /user/root/output/part-r-00000

启动Yarn并运行`MapReduce`程序

配置集群

1.配置yarn-env.sh
配置JAVA_HOME
2.配置yarn-site.xml
Reducer获取数据的方式
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
指定Yarn的ResourceManager的地址
# echo $HOSTNAME
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>nodeb1</name>（主机名）
</property>
3.配置mapred-env.sh
配置JAVA_HOME
4.配置mapred-site.xml
将mapred-site.xml.template重命名为mapred-site.xml
指定MR运行在yarn上
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>
查看启动情况：
1.jps
2.ip：8088

启动集群

启动前必须保证NameNode和DataNode已经启动
启动ResourceManager
# sbin/yarn-daemon.sh start resourcemanager
启动Nodemanager
# sbin/yarn-daemon.sh start Nodemanager

配置历史服务器

配置集群

1.mapred-site.xml
历史服务器端地址
<property>
	<name>mapreduce.jobhistory.address</name>
	<value>hadoop1:10020</value>
</property>
历史服务器Web端地址
<property><name>mapreduce.jobhistory.webapp.address</name>
	<value>192.168.31.41:19888</value>（IP地址）
</property>

启动历史服务器

# sbin/mr-jobhistory-daemon.sh start historyserver
查看历史服务器是否启动：
1.jps
2.http://hadoop1(hostname):19888

配置日志的聚合(logs)

日志聚合的概念：应用运行完成之后，将程序运行的日志信息上传到HDFS。

日志聚合的好处：可以方便地查看程序运行的详情，方便开发调试。

注意：开启日志聚合功能，需要重启NodeManager、ResourceManager和HistoryManager
关闭NodeManager、ResourceManager、HistoryManager
# sbin/mr-jobhistory-daemon.sh stop historyserver
# sbin/yarn-daemon.sh stop nodemanager
# sbin/yarn-daemon.sh stop resourcemanager
配置yarn-site.xml
日志聚合功能使能
<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>
日志保留时间设置为7天
<property>
	<name>yarn.log-aggression.retain-seconds</name>
	<value>604800</value>
</property>
重启NodeManager、ResourceManager、HistoryManager
# sbin/yarn-daemon.sh start nodemanager
# sbin/yarn-daemon.sh start resourcemanager
# sbin/mr-jobhistory-daemon.sh start historyserver

配置文件说明

Hadoop配置文件分为两类：默认配置文件和自定义配置文件。

只有用户想要修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

标签：HDFS,daemon,hdfs,sbin,yarn,sh,模式,运行,分布式
From： https://www.cnblogs.com/Lyiu7/p/16803864.html

启动`HDFS`并运行`MapReduce`程序

配置集群

启动伪分布式集群

`HDFS`的操作

启动Yarn并运行`MapReduce`程序

配置集群

启动集群

配置历史服务器

配置集群

启动历史服务器

配置日志的聚合(logs)

配置文件说明

相关文章

赞助商

阅读排行

伪分布式运行模式

启动HDFS并运行MapReduce程序

配置集群

启动伪分布式集群

HDFS的操作

启动Yarn并运行MapReduce程序

配置集群

启动集群

配置历史服务器

配置集群

启动历史服务器

配置日志的聚合(logs)

配置文件说明

相关文章

赞助商

阅读排行

启动`HDFS`并运行`MapReduce`程序

`HDFS`的操作

启动Yarn并运行`MapReduce`程序