首页 > 其他分享 >Hadoop HA高可用集群基本配置

Hadoop HA高可用集群基本配置

时间:2024-08-03 13:54:49浏览次数:19  
标签:q2 resourcemanager Hadoop dfs 集群 yarn address HA mycluster


环境

三台虚拟机q1,q2,q3,仅供学习使用
版本hadoop-2.6.0-cdh5.14.2


一、core-site.xml

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

<configuration>
	<property>
		<name>hadoop.http.staticuser.user</name>
		<value>root</value>
	</property>
	
	<property>
		<name>hadoop.proxyuser.root.hosts</name>
		<value>*</value>
	</property>
	
	<property>
		<name>hadoop.proxyuser.root.groups</name>
		<value>*</value>
	</property>

	<!--mycluster来自hdfs-site.xml-->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://mycluster</value>
	</property>
	
	<!--指定产生文件的存放目录,format时自动生成-->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/modules/hadoop-2.6.0/data</value>
	</property>
	
	<!--zookeeper集群-->
	<property>
		<name>ha.zookeeper.quorum</name>
		<value>q1:2181,q2:2181,q3:2181</value>
	</property>
	
	<!--开启回收站,默认关闭,单位分钟-->
	<property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>
	
	<!--判断是否需要清理的周期,默认=${fs.trash.interval}-->
    <property>
        <name>fs.trash.checkpoint.interval</name>
        <value>1440</value>
    </property>
</configuration>

二、hdfs-site.xml

<configuration>
	<!--名字随便,可配置多个-->
	<property>
		<name>dfs.nameservices</name>
		<value>mycluster</value>
	</property>
	
	<property>
		<name>dfs.ha.namenodes.mycluster</name>
		<value>nn1,nn2</value>
	</property>

	<!--RPC通信地址-->
	<property>
		<name>dfs.namenode.rpc-address.mycluster.nn1</name>
		<value>q1:8020</value>
	</property>

	<property>
		<name>dfs.namenode.rpc-address.mycluster.nn2</name>
		<value>q2:8020</value>
	</property>

	<!--http通信地址-->
	<property>
		<name>dfs.namenode.http-address.mycluster.nn1</name>
		<value>q1:50070</value>
	</property>

	<property>
		<name>dfs.namenode.http-address.mycluster.nn2</name>
		<value>q2:50070</value>
	</property>

	<!--多个NameNode读写临时元数据(edits、持久元数据是fsimage)的共享URL组-->
	<property>
		<name>dfs.namenode.shared.edits.dir</name>
		<value>qjournal://q1:8485;q2:8485;q3:8485/mycluster</value>
	</property>

	<!--JournalNode存储数据的实际路径-->
	<property>
		<name>dfs.journalnode.edits.dir</name>
		<value>/opt/modules/hadoop-2.6.0/journaldata</value>
	</property>
	
	<!--开启namenode故障自动切换-->
	<property>
		<name>dfs.ha.automatic-failover.enabled.mycluster</name>
		<value>true</value>
	</property>
	
	<!--指定执行故障切换的实现类-->
	<property>
		<name>dfs.client.failover.proxy.provider.mycluster</name>
		<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
	</property>

	<!--隔离机制-->
	<property>
		<name>dfs.ha.fencing.methods</name>
		<value>sshfence</value>
	</property>
	
	<!--使用sshfence需要免密登录-->
	<property>
		<name>dfs.ha.fencing.ssh.private-key-files</name>
		<value>/root/.ssh/id_rsa</value>
	</property>
</configuration>

三、mapred-site.xml

<configuration>
	<!-- 指定 mr 框架为 yarn 方式 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
 
	<!-- 指定 mapreduce jobhistory 地址 -->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>q2:10020</value>
	</property>
 
	<!-- 任务历史服务器的 web 地址 -->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>q2:19888</value>
	</property>
</configuration>

四、yarn-site.xml

<configuration>

	<!-- 启用RM HA -->
	<property>
		<name>yarn.resourcemanager.ha.enabled</name>
		<value>true</value>
	</property>
	
	<!-- 启用自动故障转移 -->
	<property>
		<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>
		<value>true</value>
	</property>

	<!-- RM HA集群标识 -->
	<property>
		<name>yarn.resourcemanager.cluster-id</name>
		<value>mycluster</value>
	</property>
	
	<property>
		<name>yarn.resourcemanager.ha.rm-ids</name>
		<value>rm1,rm2</value>
	</property>

	<property>
		<name>yarn.resourcemanager.hostname.rm1</name>
		<value>q3</value>
	</property>

	<property>
		<name>yarn.resourcemanager.hostname.rm2</name>
		<value>q2</value>
	</property>

	<property>
		<name>yarn.resourcemanager.webapp.address.rm1</name>
		<value>q3:8088</value>
	</property>

	<property>
		<name>yarn.resourcemanager.webapp.address.rm2</name>
		<value>q2:8088</value>
	</property>
	
	<!--指定zookeeper集群的地址--> 
    <property>
        <name>yarn.resourcemanager.zk-address</name>
        <value>q1:2181,q2:2181,q3:2181</value>
    </property>
	
	<!--启用自动恢复-->
	<property>
		<name>yarn.resourcemanager.recovery.enabled</name>
		<value>true</value>
	</property>

	<!--用zk存储resourcemanager的状态信息-->
	<property>
		<name>yarn.resourcemanager.store.class</name>
		<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
	</property>
	
	<!-- nodemanager上运行的附属服务,需配置成mapreduce_shuffle才能运行mr程序 -->
	<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
		
	<!-- 开启日志聚集功能 --> 
	<property> 
		<name>yarn.log-aggregation-enable</name> 
		<value>true</value> 
	</property>
	
	<!-- 设置日志聚集服务器地址 --> 
	<property>   
		<name>yarn.log.server.url</name>   
		<value>http://q2:19888/jobhistory/logs</value> 
	</property> 
	
	<!-- 设置日志保留时间为 7 天 --> 
	<property> 
		<name>yarn.log-aggregation.retain-seconds</name> 
		<value>604800</value> 
	</property>
</configuration>

标签:q2,resourcemanager,Hadoop,dfs,集群,yarn,address,HA,mycluster
From: https://blog.csdn.net/qq_44839329/article/details/140889634

相关文章

  • 开源模型应用落地-LangChain实用小技巧-ChatPromptTemplate的各种花样(三)
    一、前言  在当今的自然语言处理领域,LangChain框架因其强大的功能和灵活性而备受关注。掌握一些实用的小技巧,能够让您在使用LangChain框架时更加得心应手,从而更高效地开发出优质的自然语言处理应用。二、术语2.1.LangChain  是一个全方位的、基于大语言模型这......
  • Ubunut 22.04 Pycharm后端环境搭建
    要在Ubuntu上安装PyCharm,可以通过以下步骤进行:1.通过Snap安装(推荐)打开终端。输入以下命令以安装PyCharm:社区版(免费版):sudosnapinstallpycharm-community--classic专业版(付费版):sudosnapinstallpycharm-professional--classic2.通过Ubuntu软件中心安装打开......
  • Ubuntu 22.04 + Pycharm + Flask 配置 Flask 项目
    1.安装Flask及相关依赖在虚拟环境中安装Flask和MySQL相关的库:pipinstallFlaskFlask-MySQLdb2.创建Flask项目结构创建一个基本的Flask项目结构:mkdirmy_flask_appcdmy_flask_appmkdirapptouchapp/__init__.pyapp/routes.py3.配置Fla......
  • 使用LangChain访问个人数据第四章-向量数据库与词向量
    需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序本部分前几个章节请查看使用LangChain访问个人数据第一章-简介使用LangChain访问个人数据第......
  • 字符集和字符编码(Charset & Encoding)
    编码历史字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如......
  • Enhancing Question Answering for Enterprise Knowledge Bases using Large Language
    本文是LLM系列文章,针对《EnhancingQuestionAnsweringforEnterpriseKnowledgeBasesusingLargeLanguageModels》的翻译。使用大型语言模型增强企业知识库的问答能力摘要1引言2相关工作3前言4方法5实验6结论摘要高效的知识管理在提高企业和组......
  • Hadoop:java使用HDFS API实现基本操作工具类
    1、引入库<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>3.1.0</version></dependency><dependency><groupId>org.apache.hadoop</......
  • 【Apache Kafka深入】Kafka集群的配置与管理
    ApacheKafka深入Kafka集群的配置与管理引言ApacheKafka是一种分布式流处理平台,主要用于实时数据流的处理和传输。由于其高吞吐量、低延迟、容错性和持久性,Kafka被广泛应用于日志收集、消息系统、流处理、监控数据等领域。本文将详细介绍Kafka集群的配置与管理,帮助......
  • 为什么要设置 os.environ[“PYTHONHASHSEED“] = “0“,这样做具体会影响哪些随机值?
    ......
  • Python,Geopandas报错,AttributeError: The geopandas.dataset has been deprecated and
    Python版本3.9,Geopandas版本1.0.1问题描述:这是执行的代码,importpandasaspdimportgeopandasimportmatplotlib.pyplotaspltworld=geopandas.read_file(geopandas.datasets.get_path('naturalearth_lowres'))world.plot()plt.show()这是报错信息,Traceback(mo......