首页 > 其他分享 >5 hadoop3.0配置文件详解

5 hadoop3.0配置文件详解

时间:2022-11-09 17:23:18浏览次数:52  
标签:xml 配置文件 hadoop dfs site hadoop3.0 详解 yarn

hadoop配置文件详解
主要配置文件:
hadoop-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yar-site.xml
workers
参考:
https://hadoop.apache.org/docs/r3.0.1/
https://www.aboutyun.com/thread-26880-1-1.html
https://www.cnblogs.com/simple-li/p/14651340.html

1 hadoop-env.sh
配置hadoop环境变量
cat  hadoop-env.sh



export JAVA_HOME=/usr/local/jdk1.8.0_131
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export HDFS_ZKFC_USER=root
export HDFS_JOURNALNODE_USER=root
#export HADOOP_NAMENODE_OPTS=" -Xms1024m -Xmx1024m -XX:+UseParallelGC"

2 core-site.xml
Hadoop 核心全局配置文件,可在其他配置文件中引用该文件

cat core-site.xml
<configuration>
<property>
        <!-- 制定hdfs的nameservice,默认的链接地址,可以自定义的-->
        <name>fs.defaultFS</name>
        <value>hdfs://ns1</value>
    </property>
    <property>
        <name>dfs.nameservices</name>
        <value>ns1</value>
    </property>

    <property>
        <!--临时文件存储目录-->

        <name>hadoop.tmp.dir</name>
        <value>/hadoop/tmp</value>
    </property>
    <property>
        <!--指定zookeeper,还可以更多的设置超时时间等内容-->
        <name>ha.zookeeper.quorum</name>
        <value>vm1:2181,vm1:2181,vm1:2181</value>
    </property>
</configuration>






3 hdfs-site.xml
HDFS配置文件,继承core-site.xml配置文件。Hadoop的底层存储配置文件,主要配置HDFS相关参数


cat hdfs-site.xml
<configuration>
    <property>
      <!--设置的副本数量,在程序汇总副本的系数是可以更改的-->
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <!--配置的nameservice的名字,需要与core-site.xml中保持一致,并且利用其名称与namenode设置唯一标识-->

        <name>dfs.nameservices</name>
        <value>ns1</value>
    </property>
    <property>
        <!--配置cluster下面的namenode名称-->
        <name>dfs.ha.namenodes.ns1</name>
        <value>nn1,nn2</value>
    </property>
    <property>
        <!--配置namenode的地址与端口(RPC)-->
        <name>dfs.namenode.rpc-address.ns1.nn1</name>
        <value>vm1:8020</value>
    </property>
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn2</name>
        <value>vm2:8020</value>
    </property>
    <property>
        <!--配置namenode的地址与端口(HTTP)-->
        <name>dfs.namenode.http-address.ns1.nn1</name>
        <value>vm1:50070</value>
    </property>
    <property>
        <name>dfs.namenode.http-address.ns1.nn2</name>
        <value>vm2:50070</value>
    </property>
    <property>
        <!--journal namenode同步namenode的元数据共享存储位置。也就是journal的列表信息->
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://vm1:8485;vm2:8485;vm3:8485/ns1</value>
    </property>
    <property>
        <!--配置高可用方案内容,失败后自动切换的方式-->
        <name>dfs.client.failover.proxy.provider.ns1</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <property>
        <!--ssh方案配置-->
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
    </property>
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
    <property>  
        <!--namenode文件路径信息(元数据)-->

        <name>dfs.name.dir</name> #<name>dfs.namenode.name.dir</name>
        <value>/hadoop/dfs/name</value>  
    </property>
    <property>
        <!--datanode数据保存路径,可配置多个数据盘-->
        <name>dfs.data.dir</name>  
        <value>/hadoop/data</value>  #<value>/hadoop/data,/hadoop/data2,/hadoop/data3</value>
    </property>        
    <property>
        <!--journalnode的保存文件路径-->
        <name>dfs.journalnode.edits.dir</name>
        <value>/hadoop/journalnode</value>
    </property>
    <property>
        <!--开启NameNode失败自动切换-->
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>
</configuration>


4 mapred-site.xml
MapReduce 配置文件,继承 core-site.xml 配置文件
yarn的web地址和history的web地址以及指定我们的mapreduce运行在yarn集群上

cat mapred-site.xml


<!-- Put site-specific property overrides in this file. -->

<configuration>
        <!-- 指定 MapReduce 程序运行在 Yarn 上,表示MapReduce使用yarn框架 -->
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <!-- 开启MapReduce小任务模式 -->
        <property>
            <name>mapreduce.job.ubertask.enable</name>
            <value>true</value>
        </property>
        <!-- 设置历史任务的主机和端口 -->
        <property>
            <name>mapreduce.jobhistory.address</name>
            <value>vm1:10020</value>
        </property>
        <!-- 设置网页访问历史任务的主机和端口 -->
        <property>
            <name>mapreduce.jobhistory.webapp.address</name>
            <value>vm1:19888</value>
        </property>
</configuration>

5 yarn-site.xml
YARN配置文件,继承 core-site.xml配置文件

cat  yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->
    <property> 
       <!--是否开启RM ha,默认是开启的--> 
       <name>yarn.resourcemanager.ha.enabled</name>  
       <value>true</value>  
    </property>  
    <property>
       <!--声明两台resourcemanager的地址-->
       <name>yarn.resourcemanager.cluster-id</name>  
       <value>rmcluster</value>  
    </property>  
    <property>
       <!--制定rm的名字-->
       <name>yarn.resourcemanager.ha.rm-ids</name>  
       <value>rm1,rm2</value>  
    </property>  
    <property> 
       <!--指定rm的地址-->
       <name>yarn.resourcemanager.hostname.rm1</name>  
       <value>vm1</value>  
    </property>  
    <property>  
       <name>yarn.resourcemanager.hostname.rm2</name>  
       <value>vm2</value>  
    </property>  
    <property>
       <!--指定zookeeper集群的地址-->
       <name>yarn.resourcemanager.zk-address</name>  
       <value>vm1:2181,vm2:2181,vm3:2181</value>  
    </property>   
    <property> 
       <!--启用自动恢复,当任务进行一半,rm坏掉,就要启动自动恢复,默认是false-->
       <name>yarn.resourcemanager.recovery.enabled</name>  
       <value>true</value>  
    </property>   
    <property>
       <!--指定resourcemanager的状态信息存储在zookeeper集群,默认是存放在FileSystem里面--> 
       <name>yarn.resourcemanager.store.class</name>  
       <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>  
    </property>
</configuration>

6 /home/hadoop/hadoop-3.2.2/etc/hadoop/workers
数据节点加入到workers里面:
vm2
vm3

 

标签:xml,配置文件,hadoop,dfs,site,hadoop3.0,详解,yarn
From: https://www.cnblogs.com/skyzy/p/16874488.html

相关文章

  • 支撑5亿用户、1.5亿活跃用户的Twitter最新架构详解及相关实现
    ​如果你对项目管理、系统架构有兴趣,请加微信订阅号“softjg”,加入这个PM、架构师的大家庭摘要:Twitter出道之初只是个奋斗在RoR上的小站点,而如今已拥有1.5亿的活跃用户......
  • 367页资料详解企业数字化转型,覆盖多行业!附下载
    ​据工信部网站11月8日消息,为助力中小企业数字化转型,工业和信息化部组织相关单位共同研究制定了《中小企业数字化水平评测指标(2022年版)》(以下简称《评测指标》)。《指南》明......
  • nodejs pm2 详解
    一、PM2是什么pm2是可以用于生产环境的Nodejs的进程管理工具,并且它内置一个负载均衡。它不仅可以保证服务不会中断一直在线,并且提供0秒reload功能,还有其他一系列进程管理......
  • K8S中使用EFK的filebeat配置详解
    前言近期公司不少项目都上了K8S,随着项目越来越多,有时候会出现“服务异常”等情况,需要上到服务器敲一大堆的命令,才有可能找到疑似的异常原因。如果我们将这些数据全部记录到......
  • Nginx配置文件详解
    Nginx的主配置文件是nginx.conf,这个配置文件一共由三部分组成,分别为全局块、events块和http块。在http块中,又包含http全局块、多个server块。每个server块中,可以包含server......
  • 目标检测中的平均精度(mAP)详解--建议收藏+掌握
    导读本文将详细介绍目标检测中的平均精度(mAP),建议收藏并掌握。(公众号:OpenCV与AI深度学习)背景介绍   平均精度(mAP)是用于评估机器学习模型的性能指标。它被PASCALV......
  • 阿里云ecs使用详解
     https://help.aliyun.com/document_detail/151694.html?spm=a2c4g.11186623.0.0.3ac1a6659YY9zX准备工作创建账号,以及完善账号信息。注册阿里云账号,并完成实......
  • Redis的安装和Redis的基本数据库操作实操详解
    一.什么是Redis?Redis是远程字典服务器,Remotedictionaryserver一个开源的基于内存的数据库,常用作键值存储、缓存和消息队列等。Redis通常被称为数据结构服务器......
  • UML应用开发详解--视频
    ​​UML应用开发详解​​地址:​​http://v.51work6.com/courseInfoRedirect.do?action=courseInfo&courseId=240574​​通过本教程,可以使学员掌握UML建模中的结构建模,包括类......
  • 7.1.3 TimePicker结合案例详解
    TimePicker是Android的时间设置控件。TimePicker类的继承图如下:java.lang.Object↳android.view.View↳android.view.ViewGroup↳andro......