Hadoop是一个能够在大量计算机集群上处理和存储海量数据的软件框架。它有三个非常重要的组件,分别是HDFS(Hadoop Distributed File System,分布式文件系统)、MapReduce和YARN(Yet Another Resource Negotiator,资源协商器)。
HDFS(分布式文件系统)
想象一下,你有一个非常大的图书馆,里面藏书量巨大,如果只有一个人来管理,那肯定会忙不过来,而且效率也很低。HDFS就是解决这个问题的,它像一个分布式的图书馆管理系统。
• 作用:HDFS的主要作用就是存储和管理大数据。它可以将大数据切割成很多小块,然后分散存储在很多台计算机上,这样既可以提高存储效率,又可以保证数据的安全性。
• 核心概念:在HDFS中,有两个核心概念,一个是NameNode(名称节点),另一个是DataNode(数据节点)。NameNode就像是图书馆的目录,负责记录每本书的位置;DataNode就像是书架上的书,实际存储着数据。
MapReduce
MapReduce就像是一个大型的加工厂,专门用来处理大数据的。它的工作原理很简单,就是“分而治之”。
• 作用:MapReduce可以将大数据切割成很多小块,然后并行处理这些小块数据,最后再将处理结果合并起来。这样就可以快速处理大量数据。
• 核心概念:Map和Reduce是MapReduce的两个核心操作。Map操作负责将大数据切割成小块,并进行初步处理;Reduce操作则负责将Map处理后的结果进行合并和汇总。
YARN(资源协商器)
YARN是Hadoop的资源管理器,它负责分配和管理Hadoop集群中的计算资源。
• 作用:在Hadoop集群中,有很多计算机和计算资源,YARN就像一个调度员,负责将这些资源分配给不同的任务。它可以保证每个任务都能得到足够的资源,从而提高整个集群的运行效率。
• 核心概念:在YARN中,有两个核心概念,一个是ResourceManager(资源管理器),另一个是NodeManager(节点管理器)。ResourceManager负责接收任务请求,并根据集群的资源情况,给任务分配资源;NodeManager则负责在每个节点上管理资源,比如启动和停止任务、监控资源使用情况等。
标签:HDFS,数据,MapReduce,YARN,Hadoop,集群,瑞士军刀,三大 From: https://blog.csdn.net/qq_44378083/article/details/144751780