目录
1、Hadoop是什么
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
2、Hadoop 三大发行版本
- Hadoop 三大发行版本:Apache、Cloudera、Hortonworks
- Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
- Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008
- Hortonworks 文档较好,对应产品 HDP。2011
- Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。
3、Hadoop 优势
- 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
- 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。(双十一,业务增加,需要增加服务器,hadoop有很好的扩展性)
- 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
- 高容错性:能够自动将失败的任务重新分配。
4、Hadoop组成
4.1 Hadoop1.x、2.x、3.x区别
4.2 HDFS概述
- NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
- DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
- Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
4.3 YARN概述
-
为什么要使用容器
- 使用完可以自动释放,将资源回归给NM
- 针对不同的任务开启定制化的容器,可在一个几点运行多个任务