首页 > 编程语言 >1.3 Apache Hadoop的重要组成-hadoop-最全最完整的保姆级的java大数据学习资料

1.3 Apache Hadoop的重要组成-hadoop-最全最完整的保姆级的java大数据学习资料

时间:2022-12-04 09:33:47浏览次数:37  
标签:ApplicationMaster HDFS 1.3 Hadoop hadoop Apache 数据

目录

1.3 Apache Hadoop的重要组成

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块

  1. Hadoop HDFS:(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统

比如:100T数据存储, “分而治之” 。分:拆分-->数据切割,100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。

数据切割、制作副本、分散储存

在这里插入图片描述

图中涉及到几个角色
NameNode(nn):存储文件的元数据,比如文件名、文件目录结构、文件属性(生成时间、副 本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照。
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验

注意:NN,2NN,DN这些既是角色名称,进程名称,代指电脑节点名称!!

  1. Hadoop MapReduce:一个分布式的离线并行计算框架

    拆解任务、分散处理、汇整结果
    MapReduce计算 = Map阶段 + Reduce阶段

    Map阶段就是“分”的阶段,并行处理输入数据

    Reduce阶段就是“合”的阶段,对Map阶段结果进行汇总

在这里插入图片描述

  1. Hadoop YARN:作业调度与集群资源管理的框架

    计算资源协调

在这里插入图片描述

Yarn中有如下几个主要角色,同样,既是角色名、也是进程名,也指代所在计算机节点名称。

ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度;

NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令;

ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

Container:对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

​ ResourceManager是老大,NodeManager是小弟,ApplicationMaster是计算任务专员。

在这里插入图片描述

  1. Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)

标签:ApplicationMaster,HDFS,1.3,Hadoop,hadoop,Apache,数据
From: https://www.cnblogs.com/gitBook/p/16949408.html

相关文章

  • 大数据--Hadoop环境部署(4)Hadoop集群部署
    Hadoop集群的部署方式分为三种,分别是独立模式(Standalonemode)、伪分布式模式(Pseudo-Distributedmode)和完全分布式模式(Clustermode),独立模式和伪分布式模式主要用于学习和......
  • 大数据--Hadoop环境部署(3)JDK和ZooKeeper环境配置
    Linux环境搭建:https://www.cnblogs.com/Studywith/p/16946297.html免密连接:https://www.cnblogs.com/Studywith/p/16946310.html在完成了Linux虚拟机的基础配置后,接下来......
  • 1.2 Hadoop简介-hadoop-最全最完整的保姆级的java大数据学习资料
    目录1.2Hadoop简介1.2.1什么是Hadoop1.2.2Hadoop的起源1.2.3Hadoop的特点1.2.4Hadoop的发行版本1.2.5ApacheHadoop版本更迭1.2.6第六节Hadoop的优缺点1.2Hadoop......
  • 大数据--Hadoop环境部署(2)主机映射和免密登录
    一.主机IP映射就是将虚拟机的IP地址和主机名进行映射,这样就可以直接通过root@主机名的方式找到对应的虚拟机(三台虚拟机都要建立三条映射关系)vim/etc/hosts192.168.121.......
  • 大数据--Hadoop环境部署(1)Linux环境搭建
    一.安装三台Linux虚拟机使用centos7系统,命名node_01,node_02,node_03,具体在VMware上的各种安装过程见其他博客二.虚拟机参数设置1.配置Linux系统网络及主机名创建完成的......
  • Dubbo 3.1.3、3.2.0-beta.2 正式发布
    Dubbo3.1.3修改内容修复本地调用的过程中Filter顺序异常的问题支持导入协议配置项到MetadataService支持在发布MetadataService时自动选择可用端口完善错误码......
  • 2022.11.30杂记
    1、ROS与Ubuntu的版本匹配: 2、“nospaceleftondevice”(磁盘空间不足)问题解决:https://blog.csdn.net/youmatterhsp/article/details/803825523、磁盘扩展后ubuntu......
  • Hadoop3_04(重点)
    4.2完全分布式运行模式(开发重点)分析:(1)准备3台客户机(关闭防火墙、静态ip、主机名称)(2)安装JDK(3)配置环境变量(4)安装Hadoop(5)配置环境变量(6)配置ssh(7)配置集群(8)单点启动(9)群......
  • 11.30
    今日内容1.前端简介2.HTTP协议3.HTML简介4.HTML概览5.head内常见标签6.body内基本标签7.常见符号8.body内布局标签9.body内常用标签10.列表标签11.表格标签12.......
  • hadoop学习之初始环境1
    首先虚拟机中centos系统,且能联网可以使用secureCRT工具在本机操作centos系统。建立session连接。联网的给个案例:1.未联网,进root2.进文件夹,留某物,删。。3.现mac地址,复制之......