1.3 Apache Hadoop的重要组成-hadoop-最全最完整的保姆级的java大数据学习资料

时间：2022-12-04 09:33:47浏览次数：39

标签：ApplicationMaster HDFS 1.3 Hadoop hadoop Apache 数据

1.3 Apache Hadoop的重要组成

1.3 Apache Hadoop的重要组成

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块

Hadoop HDFS：（Hadoop Distribute File System ）一个高可靠、高吞吐量的分布式文件系统

比如：100T数据存储， “分而治之” 。分：拆分-->数据切割，100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。

数据切割、制作副本、分散储存

在这里插入图片描述

图中涉及到几个角色
NameNode（nn）：存储文件的元数据，比如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
SecondaryNameNode（2nn）：辅助NameNode更好的工作，用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据快照。
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验

注意：NN，2NN,DN这些既是角色名称，进程名称，代指电脑节点名称！！

Hadoop MapReduce：一个分布式的离线并行计算框架

拆解任务、分散处理、汇整结果
MapReduce计算 = Map阶段 + Reduce阶段

Map阶段就是“分”的阶段，并行处理输入数据

Reduce阶段就是“合”的阶段，对Map阶段结果进行汇总

在这里插入图片描述

Hadoop YARN：作业调度与集群资源管理的框架

计算资源协调

在这里插入图片描述

Yarn中有如下几个主要角色，同样，既是角色名、也是进程名，也指代所在计算机节点名称。

ResourceManager(rm)：处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度；

NodeManager(nm)：单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令；

ApplicationMaster(am)：数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。

Container：对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

ResourceManager是老大，NodeManager是小弟，ApplicationMaster是计算任务专员。

在这里插入图片描述

Hadoop Common：支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）

标签：ApplicationMaster,HDFS,1.3,Hadoop,hadoop,Apache,数据
From： https://www.cnblogs.com/gitBook/p/16949408.html

大数据--Hadoop环境部署(4)Hadoop集群部署
Hadoop集群的部署方式分为三种，分别是独立模式（Standalonemode）、伪分布式模式（Pseudo-Distributedmode）和完全分布式模式（Clustermode），独立模式和伪分布式模式主要用于学习和......
大数据--Hadoop环境部署(3)JDK和ZooKeeper环境配置
Linux环境搭建:https://www.cnblogs.com/Studywith/p/16946297.html免密连接:https://www.cnblogs.com/Studywith/p/16946310.html在完成了Linux虚拟机的基础配置后,接下来......
1.2 Hadoop简介-hadoop-最全最完整的保姆级的java大数据学习资料
目录1.2Hadoop简介1.2.1什么是Hadoop1.2.2Hadoop的起源1.2.3Hadoop的特点1.2.4Hadoop的发行版本1.2.5ApacheHadoop版本更迭1.2.6第六节Hadoop的优缺点1.2Hadoop......
大数据--Hadoop环境部署(2)主机映射和免密登录
一.主机IP映射就是将虚拟机的IP地址和主机名进行映射,这样就可以直接通过root@主机名的方式找到对应的虚拟机(三台虚拟机都要建立三条映射关系)vim/etc/hosts192.168.121.......
大数据--Hadoop环境部署(1)Linux环境搭建
一.安装三台Linux虚拟机使用centos7系统,命名node_01,node_02,node_03,具体在VMware上的各种安装过程见其他博客二.虚拟机参数设置1.配置Linux系统网络及主机名创建完成的......
Dubbo 3.1.3、3.2.0-beta.2 正式发布
Dubbo3.1.3修改内容修复本地调用的过程中Filter顺序异常的问题支持导入协议配置项到MetadataService支持在发布MetadataService时自动选择可用端口完善错误码......
2022.11.30杂记
1、ROS与Ubuntu的版本匹配： 2、“nospaceleftondevice”（磁盘空间不足）问题解决：https://blog.csdn.net/youmatterhsp/article/details/803825523、磁盘扩展后ubuntu......
Hadoop3_04（重点）
4.2完全分布式运行模式（开发重点）分析：(1）准备3台客户机（关闭防火墙、静态ip、主机名称）(2）安装JDK(3）配置环境变量(4）安装Hadoop(5）配置环境变量(6）配置ssh(7）配置集群(8）单点启动(9）群......
11.30
今日内容1.前端简介2.HTTP协议3.HTML简介4.HTML概览5.head内常见标签6.body内基本标签7.常见符号8.body内布局标签9.body内常用标签10.列表标签11.表格标签12.......
hadoop学习之初始环境1
首先虚拟机中centos系统，且能联网可以使用secureCRT工具在本机操作centos系统。建立session连接。联网的给个案例：1.未联网，进root2.进文件夹，留某物，删。。3.现mac地址，复制之......

1.3 Apache Hadoop的重要组成-hadoop-最全最完整的保姆级的java大数据学习资料

1.3 Apache Hadoop的重要组成

相关文章

赞助商

阅读排行