首页 > 其他分享 >【大数据】MapReduce与YARN 介绍与配置

【大数据】MapReduce与YARN 介绍与配置

时间:2023-10-07 12:47:57浏览次数:34  
标签:test1 log 配置 MapReduce yarn hadoop YARN mapreduce HADOOP

MapReduce 架构

    MapReduce是一种分布式计算模型,用于处理大规模数据集。它将数据分成小块,分配给集群中的节点进行处理。Map阶段处理数据并生成键值对,Shuffle阶段将相同键的值对传输到同一节点进行排序和分组,Reduce阶段对每组键值对执行操作并生成结果。整个过程由Master节点协调和控制。MapReduce利用数据本地性优化策略,提高系统性能和效率。



MapReduce 文件配置


# (1) 配置 mapred-env.sh 
[hadoop@test1 server]$ cd /export/server/hadoop/etc/hadoop/
[hadoop@test1 hadoop]$ vim mapred-env.sh 

export JAVA_HOME=/export/server/jdk           
export HADOOP_JOB_HISTORYSERVER_HEAPSIZE=1000    # JobHistoryServer进程内存为1G
export HADOOP_MAPRED_ROOT_LOGGER=INFO,RFA        # 日志级别为INFO


# (2) 配置 mapred-site.xml   
[hadoop@test1 hadoop]$ vim mapred-site.xml 

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    <description></description>
  </property>
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>test1:10020</value>                     # test1-自定义
    <description></description>
  </property>
  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>test1:19888</value>                    # test1-自定义
    <description></description>
  </property>
  <property>
    <name>mapreduce.jobhistory.intermediate-done-dir</name>
    <value>/data/mr-history/tmp</value>
    <description></description>
  </property>
  <property>
    <name>mapreduce.jobhistory.done-dir</name>
    <value>/data/mr-history/done</value>
    <description></description>
  </property>
<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
</configuration>



YARN 架构

核心角色:
	1:ResourceManager(资源管理器)负责整个集群的资源管理和作业调度。它接收作业提交请求,根据集群的资源状况为作业分配资源,并监控作业的执行状态。ResourceManager还负责与NodeManager通信,协调资源的分配和回收。

	2:NodeManager(节点管理器)在集群的每个节点上运行,负责管理节点的资源和容器。它接收ResourceManager的指令,分配节点资源给作业执行的容器,并监控容器的运行状态和资源使用情况。NodeManager还负责向ResourceManager报告节点的健康状态。
	
	
辅助角色:
	1:ProxyServer是YARN的一个可选组件,用于提供对YARN服务的代理访问。它充当了客户端和ResourceManager之间的中间层,可以绕过网络限制直接访问ResourceManager。

	2:JobHistoryServer是YARN的一个核心组件,用于存储和展示作业的历史信息。它接收来自NodeManager的作业历史数据,并将其存储在持久化存储中,方便后续查询和分析作业的执行情况和统计信息。



YARN 文件配置


# (2) 配置vim yarn-site.xml    
[hadoop@test1 hadoop]$ vim yarn-site.xml 

<configuration>
    <property>
        <name>yarn.log.server.url</name>
        <value>http://test1:19888/jobhistory/logs</value>
        <description></description>
    </property>
  	<property>
    	<name>yarn.web-proxy.address</name>
        <value>test1:8089</value>                        # test1-自定义
        <description>proxy server hostname and port</description>
  	</property>
  	<property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
        <description>Configuration to enable or disable log aggregation</description>
  	</property>
    <property>
        <name>yarn.nodemanager.remote-app-log-dir</name>
        <value>/tmp/logs</value>
        <description>Configuration to enable or disable log aggregation</description>
    </property>
    <!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>test1</value>                   # test1-自定义
        <description></description>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
        <description></description>
    </property>
    <property>
        <name>yarn.nodemanager.local-dirs</name>
        <value>/data/nm-local</value>
        <description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description>
    </property>
    <property>
        <name>yarn.nodemanager.log-dirs</name>
        <value>/data/nm-log</value>
        <description>Comma-separated list of paths on the local filesystem where logs are written.</description>
    </property>
    <property>
        <name>yarn.nodemanager.log.retain-seconds</name>
        <value>10800</value>
        <description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
        <description>Shuffle service that needs to be set for Map Reduce applications.</description>
    </property>
</configuration>

标签:test1,log,配置,MapReduce,yarn,hadoop,YARN,mapreduce,HADOOP
From: https://www.cnblogs.com/wanghong1994/p/17745991.html

相关文章

  • 【大数据】Hadoop配置(文档版本)
    主机配置:192.168.88.101test1192.168.88.102test2192.168.88.103test3Hadoop上传压缩包并且解压hadoop百度云:链接:https://pan.baidu.com/s/1DRV_x7Q_ZTUO4KMkr2-6Qg?pwd=not3#先配置NameNode主机:#上传hadoop文件压缩包到NameNode主机,并且解压到/exp......
  • Git .gitattributes 配置
    .gitattributes文件是一个用来配置Git版本控制系统的文件,它的作用主要包括以下几个方面:定义文件属性:.gitattributes文件可以用来指定特定文件或文件类型的属性,例如文本文件、二进制文件、合并策略等。这可以帮助Git更好地处理不同类型的文件。控制行尾格式:你可以使用......
  • 视频监控/安防视频监控平台EasyCVR配置集群后有一台显示离线是什么原因?
    开源EasyDarwin视频监控TSINGSEE青犀视频平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放,可同时播放多路视频流,也能支持视频定时轮播。视频监控汇聚平台EasyCV......
  • 简单配置,快速集成!钡铼BL124助您实现Modbus转Ethernet/IP!
    钡铼技术BL124Modbus转Ethernet/IP协议网关是一款专为工业自动化领域而设计的先进设备。它提供了可靠的通信解决方案,能够将Modbus通信协议与Ethernet/IP通信协议进行高效转换,实现不同类型设备之间的无缝集成和通信。  添加图片注释,不超过140字(可选)钡铼......
  • Spring+MyBatis配置文件
    spring-config.xml<?xmlversion="1.0"encoding="UTF-8"?><beansxmlns="http://www.springframework.org/schema/beans"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xmlns:context="h......
  • Springboot配置文件
    <?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/......
  • 什么是链路聚合,怎么配置链路聚合?
    晚上好,网工朋友们。这会儿给你分享点不一样的知识,说说链路聚合。这玩意儿又叫Eth-Trunk,它通过将多条以太网物理链路捆绑在一起成为一条逻辑链路。主要目的是实现增加链路带宽的目的。同时,这些捆绑在一起的链路通过相互间的动态备份,可以有效地提高链路的可靠性。今天就给你聊聊链路......
  • vscode c++ 编译运行配置(信息学竞赛OIer专用)
    vscodec++编译运行OI专用配置在你的文件夹下建立一个名为\(\tt.vscode\)的文件夹。目录是这样的:\(\tt.vscode\)\(\tt|--c\_cpp\_properties.json\)\(\tt|--launch.json\)\(\tt|--tasks.json\)\(\tt.vscode/c\_cpp\_properties.json\){"configurations&qu......
  • Spring配置文件
    pom.xml如下<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://m......
  • 华为云OBS配置-远程附件
    使用此服务前请先注册并绑定华为云官方合作伙伴账号,享受VIP服务和优惠价格(新购和续费都有专属折扣),更能领取大额代金券!  立即注册/已有账号绑定=>>! 如果不能绑定,请联系售前商务或工单联系售后处理!  创建华为云存储OBS步骤: 一、进入OBS控制台:https://storage.huawei......