1.分布式文件系统(3种类型的节点构成,一是大量的普通的数据节点构成一个集群,二是MASTER命名服务器,包括要管理文件由多少个数据块,这些数据块存放在哪个节点上,以及文件访问权限,都在这里定义。三是资源管理的zookeeper,包括目录管理,节点状态的监控)
2.存储管理-Nosql数据库。这个层面的节点服务器我们称之为分片服务器,负责数据分片的读取,便于用户进行数据的交互,MASTER节点负责分片,如何进行分片,放到哪一个分片服务器上去。
3.计算引擎层。MASTER负责接收一个任务,然后怎么把这个任务进行划分,然后调度这个任务的执行,而集群里的各个节点,负责计算任务的实施
每一层的系统,都不一定部署在同一个集群,刚才我们看到好像是在同一集群部署,实际上存储的集群和计算的集群是可以分离的。即:数据放在一个集群上,计算可以在另外一组集群上。在逻辑上在道理上都是可以的。但为了性能的考虑,通常这些不同层上系统的部署是在同一集群的。并且任务的计算节点,和任务所需要处理的数据节点,通常安排在同一台服务器上。这样的好处,就是减少数据的移动,减少网络传输的压力。特别是低速磁盘的访问开销,
在同一个集群下,我们对不同的大数据系统还要进行高效的资源管理,也有相应的软件来负责,在appche hadoop中,这个软件是yarn。
标签:MASTER,管理系统,--,hadoop,集群,分片,服务器,数据,节点 From: https://www.cnblogs.com/zcl789456/p/17016399.html