启动HDFS
并运行MapReduce
程序
配置集群
1.core-site.xml
指定HDFS中NameNode的地址。
<property>
<name>fs.defaultFS</name>
<value>hdfs://nodeb1(主机名):9000</value>
</property>
指定Hadoop运行时产生文件的存储路径
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.7.2/data/tmp</value>
</property>
2.配置hadoop-env.sh
配置JAVA_HOME
3.配置hdfs-site.xml
指定HDFS副本数量
<property>
<name>dfs.replication</name>(默认数量为3)
<value>1</value>
</property>
启动伪分布式集群
格式化NameNode(只有第一次需要)
#bin/hdfs namenode -format
如果需要再次格式化:
1.关闭NameNode和DataNode
2.删除data、logs文件夹
3.重新格式化NameNode
启动NameNode
#sbin/hadoop-daemon.sh start namenode
启动DataNode
#sbin/hadoop-daemon.sh start datanode
查看集群运行情况
1.jps
2.ip:50070(在浏览器中访问)
HDFS
的操作
创建多级路径:
# bin/hdfs dfs -mkdir -p /user/root/input
列出:
# bin/hdfs -ls /user/root/input
# bin/hdfs -ls -R /user/root/input
向HDFS上传文件:
# bin/hdfs dfs -put 源路径(本地文件系统) 目的路径(HDFS)
# bin/hdfs dfs -put ./wcinput/wc.input /user/root/input
基于HDFS运行WordCount程序
# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/root/input /user/root/ouput
输出HDFS上文件的内容
# bin/hdfs dfs -cat /user/root/output/part-r-00000
启动Yarn并运行MapReduce
程序
配置集群
1.配置yarn-env.sh
配置JAVA_HOME
2.配置yarn-site.xml
Reducer获取数据的方式
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
指定Yarn的ResourceManager的地址
# echo $HOSTNAME
<property>
<name>yarn.resourcemanager.hostname</name>
<value>nodeb1</name>(主机名)
</property>
3.配置mapred-env.sh
配置JAVA_HOME
4.配置mapred-site.xml
将mapred-site.xml.template重命名为mapred-site.xml
指定MR运行在yarn上
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
查看启动情况:
1.jps
2.ip:8088
启动集群
启动前必须保证NameNode和DataNode已经启动
启动ResourceManager
# sbin/yarn-daemon.sh start resourcemanager
启动Nodemanager
# sbin/yarn-daemon.sh start Nodemanager
配置历史服务器
配置集群
1.mapred-site.xml
历史服务器端地址
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop1:10020</value>
</property>
历史服务器Web端地址
<property><name>mapreduce.jobhistory.webapp.address</name>
<value>192.168.31.41:19888</value>(IP地址)
</property>
启动历史服务器
# sbin/mr-jobhistory-daemon.sh start historyserver
查看历史服务器是否启动:
1.jps
2.http://hadoop1(hostname):19888
配置日志的聚合(logs)
日志聚合的概念:应用运行完成之后,将程序运行的日志信息上传到HDFS
。
日志聚合的好处:可以方便地查看程序运行的详情,方便开发调试。
注意:开启日志聚合功能,需要重启NodeManager、ResourceManager和HistoryManager
关闭NodeManager、ResourceManager、HistoryManager
# sbin/mr-jobhistory-daemon.sh stop historyserver
# sbin/yarn-daemon.sh stop nodemanager
# sbin/yarn-daemon.sh stop resourcemanager
配置yarn-site.xml
日志聚合功能使能
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
日志保留时间设置为7天
<property>
<name>yarn.log-aggression.retain-seconds</name>
<value>604800</value>
</property>
重启NodeManager、ResourceManager、HistoryManager
# sbin/yarn-daemon.sh start nodemanager
# sbin/yarn-daemon.sh start resourcemanager
# sbin/mr-jobhistory-daemon.sh start historyserver
配置文件说明
Hadoop
配置文件分为两类:默认配置文件和自定义配置文件。
只有用户想要修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。
标签:HDFS,daemon,hdfs,sbin,yarn,sh,模式,运行,分布式 From: https://www.cnblogs.com/Lyiu7/p/16803864.html