环境
三台虚拟机q1,q2,q3,仅供学习使用
版本hadoop-2.6.0-cdh5.14.2
一、core-site.xml
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
<configuration>
<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
<!--mycluster来自hdfs-site.xml-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>
<!--指定产生文件的存放目录,format时自动生成-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/hadoop-2.6.0/data</value>
</property>
<!--zookeeper集群-->
<property>
<name>ha.zookeeper.quorum</name>
<value>q1:2181,q2:2181,q3:2181</value>
</property>
<!--开启回收站,默认关闭,单位分钟-->
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
<!--判断是否需要清理的周期,默认=${fs.trash.interval}-->
<property>
<name>fs.trash.checkpoint.interval</name>
<value>1440</value>
</property>
</configuration>
二、hdfs-site.xml
<configuration>
<!--名字随便,可配置多个-->
<property>
<name>dfs.nameservices</name>
<value>mycluster</value>
</property>
<property>
<name>dfs.ha.namenodes.mycluster</name>
<value>nn1,nn2</value>
</property>
<!--RPC通信地址-->
<property>
<name>dfs.namenode.rpc-address.mycluster.nn1</name>
<value>q1:8020</value>
</property>
<property>
<name>dfs.namenode.rpc-address.mycluster.nn2</name>
<value>q2:8020</value>
</property>
<!--http通信地址-->
<property>
<name>dfs.namenode.http-address.mycluster.nn1</name>
<value>q1:50070</value>
</property>
<property>
<name>dfs.namenode.http-address.mycluster.nn2</name>
<value>q2:50070</value>
</property>
<!--多个NameNode读写临时元数据(edits、持久元数据是fsimage)的共享URL组-->
<property>
<name>dfs.namenode.shared.edits.dir</name>
<value>qjournal://q1:8485;q2:8485;q3:8485/mycluster</value>
</property>
<!--JournalNode存储数据的实际路径-->
<property>
<name>dfs.journalnode.edits.dir</name>
<value>/opt/modules/hadoop-2.6.0/journaldata</value>
</property>
<!--开启namenode故障自动切换-->
<property>
<name>dfs.ha.automatic-failover.enabled.mycluster</name>
<value>true</value>
</property>
<!--指定执行故障切换的实现类-->
<property>
<name>dfs.client.failover.proxy.provider.mycluster</name>
<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<!--隔离机制-->
<property>
<name>dfs.ha.fencing.methods</name>
<value>sshfence</value>
</property>
<!--使用sshfence需要免密登录-->
<property>
<name>dfs.ha.fencing.ssh.private-key-files</name>
<value>/root/.ssh/id_rsa</value>
</property>
</configuration>
三、mapred-site.xml
<configuration>
<!-- 指定 mr 框架为 yarn 方式 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 指定 mapreduce jobhistory 地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>q2:10020</value>
</property>
<!-- 任务历史服务器的 web 地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>q2:19888</value>
</property>
</configuration>
四、yarn-site.xml
<configuration>
<!-- 启用RM HA -->
<property>
<name>yarn.resourcemanager.ha.enabled</name>
<value>true</value>
</property>
<!-- 启用自动故障转移 -->
<property>
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
<value>true</value>
</property>
<!-- RM HA集群标识 -->
<property>
<name>yarn.resourcemanager.cluster-id</name>
<value>mycluster</value>
</property>
<property>
<name>yarn.resourcemanager.ha.rm-ids</name>
<value>rm1,rm2</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm1</name>
<value>q3</value>
</property>
<property>
<name>yarn.resourcemanager.hostname.rm2</name>
<value>q2</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm1</name>
<value>q3:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address.rm2</name>
<value>q2:8088</value>
</property>
<!--指定zookeeper集群的地址-->
<property>
<name>yarn.resourcemanager.zk-address</name>
<value>q1:2181,q2:2181,q3:2181</value>
</property>
<!--启用自动恢复-->
<property>
<name>yarn.resourcemanager.recovery.enabled</name>
<value>true</value>
</property>
<!--用zk存储resourcemanager的状态信息-->
<property>
<name>yarn.resourcemanager.store.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
</property>
<!-- nodemanager上运行的附属服务,需配置成mapreduce_shuffle才能运行mr程序 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 开启日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://q2:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
</configuration>
标签:q2,resourcemanager,Hadoop,dfs,集群,yarn,address,HA,mycluster
From: https://blog.csdn.net/qq_44839329/article/details/140889634