Hello,小伙伴们,作为大数据的第一篇博文,肯定要先介绍一下大数据中的“大哥大”Hadoop了,别急,咱们慢慢介绍。
一:Hadoop名称由来
与很多其他的开源框架不同,Hadoop的名字并不是一个缩写,而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命名的,这也太个性了吧!
二:Hadoop是干啥的?
长话短说,Hadoop是一个提供了分布式存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和计算的 分布式系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用。
三:Hadoop的核心组件
- Hadoop Common:支持其他Hadoop模块的通用工具
- Hadoop Distributed File System (HDFS):HDFS实现将文件分布式存储在很多的服务器上
- Hadoop YARN:YARN实现集群资源管理以及作业的调度分布式计算框架
- Hadoop MapReduce:MapReduce是基于YARN的、可以实现在多机器上分布式并行计算的系统
四:Hadoop生态圈
- 狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台。
- 广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一子系统只解决某一个特定的问题域(甚至可能更窄),不搞统一型的一个全能系统,而是小而精的多个小系统。
标签:HDFS,存储,今生,Hadoop,YARN,MapReduce,前世,分布式 From: https://www.cnblogs.com/tianpan666/p/17911196.html