首页 > 其他分享 >Hadoop三大组件(HDFS,MapReduce,Yarn)

Hadoop三大组件(HDFS,MapReduce,Yarn)

时间:2023-11-29 10:05:28浏览次数:39  
标签:HDFS 调度 Hadoop Yarn MapReduce 任务 nodemanager 资源

1、HDFS

  HDFS是Hadoop分布式文件系统。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

2、MapReduce

  MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。

MapReduce的思想就是“分而治之”。

  (1)Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义:

一是数据或计算的规模相对原任务要大大缩小;二是就近计算原则,即任务会分配到存放着所需数据的节点上进行计算;三是这些小任务可以并行计算,彼此间几乎没有依赖关系。

  (2)Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer,用户可以根据具体问题,通过在mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值,缺省值为1。

3、Yarn

 yarn:负责资源调度。包括两个模块:resourcemanager和nodemanager

resourcemanager:整个资源调度的老大

(1)接收客户端的请求 该请求是运行程序的请求
(2)启动和监控MRAppMaster
(3)接收nodemanager的状态报告 nodemanager的资源状态和存活状态
(4)资源调度,整个计算程序的资源调度:决定运行资源和跑在哪个节点

nodemanager:负责真正的提供资源,运行计算程序

(1)接收resourcemanager的命令
(2)管理单个结点上的资源
(3)提供资源运行计算程序
(4)处理来自MRAppMaster的命令

 

唯有热爱方能抵御岁月漫长。



标签:HDFS,调度,Hadoop,Yarn,MapReduce,任务,nodemanager,资源
From: https://blog.51cto.com/u_15724848/8609800

相关文章

  • 二、Hadoop集群搭建与学习
     Hadoop集群搭建(完全分布式版本) 一、准备工作三台虚拟机:master、node1、node2时间同步(3.x版本不用做)ntpdatentp.aliyun.com     调整时区 3.x版本不用做)cp/usr/share/zoneinfo/Asia/Shanghai/etc/localtime jdk1.8java-version ......
  • Yarn学习(三)Yarn Workspace介绍 + 适用场景 + 命令
      介绍Yarn从1.0版开始支持Workspace(工作区),提供的monorepo的依赖管理机制,用于在代码仓库的根目录下管理多个package的依赖。Workspace能更好的统一管理有多个项目的仓库,既可在每个项目下使用独立的package.json管理依赖,又可便利的享受一条yarn命令安装或者升级......
  • Hadoop 常用命令
    1.文件类1.新建文件夹hadoopfs-mkdir{folderName}hadoopfs-mkdir/coreqi2.上传文件hadoopfs-put{localPath}{hadoopPath}hadoopfs-put/home/coreqi.txt/coreqi......
  • Hadoop第四天学习记录
    经过四天的Hadoop学习,我对这个分布式存储和处理框架有了更深入的了解。今天,我主要学习了Hadoop的生态系统中的其他组件和工具,以及如何在实际场景中应用Hadoop来解决实际问题。首先,我学习了Hadoop生态系统中的其他组件和工具,如Hive、HBase、Pig、Sqoop等。Hive是一个数据仓库工具,它......
  • yarn : 无法加载文件 C:\Program Files\nodejs\yarn.ps1,因为在此系统上禁止运行
    问题分析:这个错误提示说明在电脑系统上禁止运行PowerShell 脚本,因此导致无法加载Yarn的安装脚本。这是由于系统的执行策略(ExecutionPolicies)设置所导致的。解决方法:1.以管理员身份运行PowerShell。2.在窗口中执行 set-ExecutionPolicyRemoteSigned。3.执行完成后,......
  • yarn的安装与禁止运行脚本报错
    一、yarn1.安装与卸载npminstall-gyarnnpmuninstallyarn-g//yarn卸载2.npm存在的一些不足:npminstall下载速度慢,即使是重新install时速度依旧慢同一个项目,安装的无法保持一致性。原因是因为package.json文件中版本号的特点导致在安装的时候代表不同的含义。使用npm......
  • Hadoop-3.3.6分布式集群搭建步骤
    1.下载JDK8Linux安装Openjdk2.下载Hadoop3.3.6Hadoop安装及环境变量配置3.创建hadoop数据存储的目录mkdir-p/opt/hadoop/tmp/opt/hadoop/hdfs/data/opt/hadoop/hdfs/name4.配置hostname和host文件hostnamectlset-hostname{hostName}vim/etc/hosts192.168.58.1......
  • Hadoop 环境变量配置
    1.下载https://hadoop.apache.org/releases.html2.环境变量配置在/etc/profile.d中配置1.新建hadoop.shvi/etc/profile.d/hadoop.shexportHADOOP_HOME=/usr/hadoop/hadoop-3.3.6exportPATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin2.授予文件执行权限chmodu+x/e......
  • 一、Hadoop概述与初步学习
    一、Hadoop的发展史 Google 爬取全球的网站,然后计算页面的PageRank 要解决网站的问题: a:这些网站怎么存放 b:这些网站应该怎么计算 发布了三篇论文 a:GFS(GoogleFileSystem) b:MapReduce(数据计算方法) c:BigTable-->HBase Dougcutting花费......
  • Hadoop第一天学习记录
    今天,我开始接触并学习Hadoop,一个分布式存储和计算框架,广泛应用于大数据处理和分析领域。为了方便记录和回顾,我将在这里详细记录下我第一天的学习内容和心得。首先,我了解了Hadoop的背景和基本概念。Hadoop起源于ApacheNutch项目,旨在构建一个分布式搜索引擎。然而,随着项目的演进,Hado......