Hadoop三大组件（HDFS,MapReduce,Yarn）

时间：2023-11-29 10:05:28浏览次数：42

标签：HDFS 调度 Hadoop Yarn MapReduce 任务 nodemanager 资源

1、HDFS

　　HDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。

2、MapReduce

　　MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。

MapReduce的思想就是“分而治之”。

　　（1）Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：

一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此间几乎没有依赖关系。

　　（2）Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer，用户可以根据具体问题，通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值，缺省值为1。

3、Yarn

yarn:负责资源调度。包括两个模块：resourcemanager和nodemanager

resourcemanager：整个资源调度的老大

（1）接收客户端的请求该请求是运行程序的请求
（2）启动和监控MRAppMaster
（3）接收nodemanager的状态报告 nodemanager的资源状态和存活状态
（4）资源调度，整个计算程序的资源调度：决定运行资源和跑在哪个节点

nodemanager：负责真正的提供资源，运行计算程序

（1）接收resourcemanager的命令
（2）管理单个结点上的资源
（3）提供资源运行计算程序
（4）处理来自MRAppMaster的命令

唯有热爱方能抵御岁月漫长。

标签：HDFS,调度,Hadoop,Yarn,MapReduce,任务,nodemanager,资源
From： https://blog.51cto.com/u_15724848/8609800

二、Hadoop集群搭建与学习
Hadoop集群搭建（完全分布式版本）一、准备工作三台虚拟机：master、node1、node2时间同步（3.x版本不用做）ntpdatentp.aliyun.com 调整时区 3.x版本不用做）cp/usr/share/zoneinfo/Asia/Shanghai/etc/localtime jdk1.8java-version ......
Yarn学习（三）Yarn Workspace介绍 + 适用场景 + 命令
介绍Yarn从1.0版开始支持Workspace（工作区），提供的monorepo的依赖管理机制，用于在代码仓库的根目录下管理多个package的依赖。Workspace能更好的统一管理有多个项目的仓库，既可在每个项目下使用独立的package.json管理依赖，又可便利的享受一条yarn命令安装或者升级......
Hadoop 常用命令
1.文件类1.新建文件夹hadoopfs-mkdir{folderName}hadoopfs-mkdir/coreqi2.上传文件hadoopfs-put{localPath}{hadoopPath}hadoopfs-put/home/coreqi.txt/coreqi......
Hadoop第四天学习记录
经过四天的Hadoop学习，我对这个分布式存储和处理框架有了更深入的了解。今天，我主要学习了Hadoop的生态系统中的其他组件和工具，以及如何在实际场景中应用Hadoop来解决实际问题。首先，我学习了Hadoop生态系统中的其他组件和工具，如Hive、HBase、Pig、Sqoop等。Hive是一个数据仓库工具，它......
yarn : 无法加载文件 C:\Program Files\nodejs\yarn.ps1,因为在此系统上禁止运行
问题分析：这个错误提示说明在电脑系统上禁止运行PowerShell 脚本，因此导致无法加载Yarn的安装脚本。这是由于系统的执行策略（ExecutionPolicies）设置所导致的。解决方法：1.以管理员身份运行PowerShell。2.在窗口中执行 set-ExecutionPolicyRemoteSigned。3.执行完成后，......
yarn的安装与禁止运行脚本报错
一、yarn1.安装与卸载npminstall-gyarnnpmuninstallyarn-g//yarn卸载2.npm存在的一些不足：npminstall下载速度慢，即使是重新install时速度依旧慢同一个项目，安装的无法保持一致性。原因是因为package.json文件中版本号的特点导致在安装的时候代表不同的含义。使用npm......
Hadoop-3.3.6分布式集群搭建步骤
1.下载JDK8Linux安装Openjdk2.下载Hadoop3.3.6Hadoop安装及环境变量配置3.创建hadoop数据存储的目录mkdir-p/opt/hadoop/tmp/opt/hadoop/hdfs/data/opt/hadoop/hdfs/name4.配置hostname和host文件hostnamectlset-hostname{hostName}vim/etc/hosts192.168.58.1......
Hadoop 环境变量配置
1.下载https://hadoop.apache.org/releases.html2.环境变量配置在/etc/profile.d中配置1.新建hadoop.shvi/etc/profile.d/hadoop.shexportHADOOP_HOME=/usr/hadoop/hadoop-3.3.6exportPATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin2.授予文件执行权限chmodu+x/e......
一、Hadoop概述与初步学习
一、Hadoop的发展史 Google 爬取全球的网站，然后计算页面的PageRank 要解决网站的问题： a：这些网站怎么存放 b：这些网站应该怎么计算发布了三篇论文 a：GFS(GoogleFileSystem) b：MapReduce(数据计算方法) c：BigTable-->HBase Dougcutting花费......
Hadoop第一天学习记录
今天，我开始接触并学习Hadoop，一个分布式存储和计算框架，广泛应用于大数据处理和分析领域。为了方便记录和回顾，我将在这里详细记录下我第一天的学习内容和心得。首先，我了解了Hadoop的背景和基本概念。Hadoop起源于ApacheNutch项目，旨在构建一个分布式搜索引擎。然而，随着项目的演进，Hado......

Hadoop三大组件（HDFS,MapReduce,Yarn）

相关文章

赞助商

阅读排行