Hadoop HA高可用集群基本配置

标签：q2 resourcemanager Hadoop dfs 集群 yarn address HA mycluster

环境

三台虚拟机q1，q2，q3，仅供学习使用
版本hadoop-2.6.0-cdh5.14.2

一、core-site.xml

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

<configuration>
	<property>
		<name>hadoop.http.staticuser.user</name>
		<value>root</value>
	</property>
	
	<property>
		<name>hadoop.proxyuser.root.hosts</name>
		<value>*</value>
	</property>
	
	<property>
		<name>hadoop.proxyuser.root.groups</name>
		<value>*</value>
	</property>

	<!--mycluster来自hdfs-site.xml-->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://mycluster</value>
	</property>
	
	<!--指定产生文件的存放目录，format时自动生成-->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/modules/hadoop-2.6.0/data</value>
	</property>
	
	<!--zookeeper集群-->
	<property>
		<name>ha.zookeeper.quorum</name>
		<value>q1:2181,q2:2181,q3:2181</value>
	</property>
	
	<!--开启回收站，默认关闭，单位分钟-->
	<property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
	
	<!--判断是否需要清理的周期，默认=${fs.trash.interval}-->
    <property>
        <name>fs.trash.checkpoint.interval</name>
        <value>1440</value>
    </property>
</configuration>

二、hdfs-site.xml

<configuration>
	<!--名字随便，可配置多个-->
	<property>
		<name>dfs.nameservices</name>
		<value>mycluster</value>
	</property>
	
	<property>
		<name>dfs.ha.namenodes.mycluster</name>
		<value>nn1,nn2</value>
	</property>

	<!--RPC通信地址-->
	<property>
		<name>dfs.namenode.rpc-address.mycluster.nn1</name>
		<value>q1:8020</value>
	</property>

	<property>
		<name>dfs.namenode.rpc-address.mycluster.nn2</name>
		<value>q2:8020</value>
	</property>

	<!--http通信地址-->
	<property>
		<name>dfs.namenode.http-address.mycluster.nn1</name>
		<value>q1:50070</value>
	</property>

	<property>
		<name>dfs.namenode.http-address.mycluster.nn2</name>
		<value>q2:50070</value>
	</property>

	<!--多个NameNode读写临时元数据（edits、持久元数据是fsimage）的共享URL组-->
	<property>
		<name>dfs.namenode.shared.edits.dir</name>
		<value>qjournal://q1:8485;q2:8485;q3:8485/mycluster</value>
	</property>

	<!--JournalNode存储数据的实际路径-->
	<property>
		<name>dfs.journalnode.edits.dir</name>
		<value>/opt/modules/hadoop-2.6.0/journaldata</value>
	</property>
	
	<!--开启namenode故障自动切换-->
	<property>
		<name>dfs.ha.automatic-failover.enabled.mycluster</name>
		<value>true</value>
	</property>
	
	<!--指定执行故障切换的实现类-->
	<property>
		<name>dfs.client.failover.proxy.provider.mycluster</name>
		<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
	</property>

	<!--隔离机制-->
	<property>
		<name>dfs.ha.fencing.methods</name>
		<value>sshfence</value>
	</property>
	
	<!--使用sshfence需要免密登录-->
	<property>
		<name>dfs.ha.fencing.ssh.private-key-files</name>
		<value>/root/.ssh/id_rsa</value>
	</property>
</configuration>

三、mapred-site.xml

<configuration>
	<!-- 指定 mr 框架为 yarn 方式 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
 
	<!-- 指定 mapreduce jobhistory 地址 -->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>q2:10020</value>
	</property>
 
	<!-- 任务历史服务器的 web 地址 -->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>q2:19888</value>
	</property>
</configuration>

四、yarn-site.xml

<configuration>

	<!-- 启用RM HA -->
	<property>
		<name>yarn.resourcemanager.ha.enabled</name>
		<value>true</value>
	</property>
	
	<!-- 启用自动故障转移 -->
	<property>
		<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
		<value>true</value>
	</property>

	<!-- RM HA集群标识 -->
	<property>
		<name>yarn.resourcemanager.cluster-id</name>
		<value>mycluster</value>
	</property>
	
	<property>
		<name>yarn.resourcemanager.ha.rm-ids</name>
		<value>rm1,rm2</value>
	</property>

	<property>
		<name>yarn.resourcemanager.hostname.rm1</name>
		<value>q3</value>
	</property>

	<property>
		<name>yarn.resourcemanager.hostname.rm2</name>
		<value>q2</value>
	</property>

	<property>
		<name>yarn.resourcemanager.webapp.address.rm1</name>
		<value>q3:8088</value>
	</property>

	<property>
		<name>yarn.resourcemanager.webapp.address.rm2</name>
		<value>q2:8088</value>
	</property>
	
	<!--指定zookeeper集群的地址--> 
    <property>
        <name>yarn.resourcemanager.zk-address</name>
        <value>q1:2181,q2:2181,q3:2181</value>
    </property>
	
	<!--启用自动恢复-->
	<property>
		<name>yarn.resourcemanager.recovery.enabled</name>
		<value>true</value>
	</property>

	<!--用zk存储resourcemanager的状态信息-->
	<property>
		<name>yarn.resourcemanager.store.class</name>
		<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
	</property>
	
	<!-- nodemanager上运行的附属服务，需配置成mapreduce_shuffle才能运行mr程序 -->
	<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
		
	<!-- 开启日志聚集功能 --> 
	<property> 
		<name>yarn.log-aggregation-enable</name> 
		<value>true</value> 
	</property>
	
	<!-- 设置日志聚集服务器地址 --> 
	<property>   
		<name>yarn.log.server.url</name>   
		<value>http://q2:19888/jobhistory/logs</value> 
	</property> 
	
	<!-- 设置日志保留时间为 7 天 --> 
	<property> 
		<name>yarn.log-aggregation.retain-seconds</name> 
		<value>604800</value> 
	</property>
</configuration>

标签：q2,resourcemanager,Hadoop,dfs,集群,yarn,address,HA,mycluster
From： https://blog.csdn.net/qq_44839329/article/details/140889634

Hadoop HA高可用集群基本配置

环境

一、core-site.xml

二、hdfs-site.xml

三、mapred-site.xml

四、yarn-site.xml

相关文章

赞助商

阅读排行