Hadoop要解决的问题:
海量数据的存储和计算
Hadoop优势
1.高可靠性,Hadoop底层维护多个数据副本,即使某个结点故障,也不会导致数据丢失
2.高扩展性:在集群间分配任务数据,方便扩展数以千计的结点(动态增加删除服务器)
3.高效性: Hadoop是并行工作的,加快任务处理速度
4.高容错性: 能够自动将失败的任务重新分配
Hadoop的组成(重点)
Hadoop3.x在组成上没有太大变化
HDFS概述:
NameNode(nn):记录每个文件块存储的位置(类似与目录)(文件名,文件目录结构,文件属性,文件权限,文件块列表以及所在的DataNode)
DataNode(dn):具体来存储数据(在本地文件系统存储文件块数据,以及块数据的校验和)
Secondary NameNode (2NN):辅助NameNode工作(每隔一段时间对NameNode的元数据进行备份)
Yarn(ResourceManager--RM和NodeManager--NM)
ResourceManager:整个集群的资源管理--内存、CPU等
NodeManager:单个结点的资源管理
ApplicationMaster:单个任务运行的管理者
Container:容器,相当于一个独立的服务器,里面封装任务运行所需要的资源,CPU 内存 网络 等
多个客户端,集群上可以运行多个APP Master,每个NM上可有多个Container
MapReduce
计算过程分为两个阶段:Map和Reduce
Map:并行处理输入数据
Reduce:对Map阶段的结果进行汇总
HDFS,Yarn,MapReduce三者关系
大数据生态图
标签:Map,结点,--,Hadoop,NameNode,数据 From: https://www.cnblogs.com/zlnfcl/p/16803913.html