1.概念
分布式系统基础架构。主要包括分布式文件系统HDFS(Hadoop Distributed File System)、分布式计算系统Map Reduce和分布式资源管理系统YARN
2.构成
2.1 HDFS
HDFS提供了高可靠性(主要通过多副本来实现)、高扩展性(通过添加机器来达到线性扩展)和高吞吐率的数据存储服务
HDFS的基本原理是将数据文件以指定的块大小拆分成数据块,并将数据块以副本的方式存储到多台机器上
即使某个节点出现故障,该节点上存储的数据块副本丢失,但是在其他节点上还有对应的数据副本
HDFS将数据文件的切分、容错、负载均衡等功能透明化。我们可将HDFS看成一个容量巨大、具有高容错性的磁盘,在使用的时候完全可以当作普通的本地磁盘使用。
2.2 Map Reduce
Map Reduce是一个编程模型,用以进行大数据量的计算
两项核心操作:Map(映射)和Reduce(归纳)
一个Map Reduce作业通常会把输入的数据集切分为若干独立的数据块,由map任务以并行的方式处理它们,对map的输出先进行排序,然后再把结果输入reduce任务,由reduce任务来完成最终的统一处理。通常Map Reduce作业的输入和输出都是使用Hadoop分布式文件系统(HDFS)进行存储,换句话说,就是Map Reduce框架处理数据的输入源和输出目的地的大部分场景都是存储在HDFS上的。
2.3 YARN
ARN的基本思想是将Hadoop1.x中Map Reduce架构中的Job Tracker的资源管理和作业调度监控功能进行分离,解决了在Hadoop1.x中只能运行Map Reduce框架的限制。
3.生态
Hive Pig Sqoop Flume Oozie Mahout
4.HDFS
4.1 体系结构
4.1.1 数据块
最基本的存储单位是数据块(Block),默认的块大小是64MB(有些发布版本为128MB)
HDFS中的文件是分成以Block Size为大小的数据块存储的。如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间,文件大小是多大就占用多少存储空间。
4.1.2 元数据节点
Name Node的职责是管理文件系统的命名空间,它将所有的文件和文件夹的元数据保存在一个文件系统树中,如一个文件包括哪些数据块,这些数据块分布在哪些数据节点上,这些信息都要存储下来。
标签:HDFS,存储,Map,Reduce,Hadoop,数据 From: https://www.cnblogs.com/lwx11111/p/18418520