首页 > 其他分享 >Hadoop的“前世今生”

Hadoop的“前世今生”

时间:2023-12-18 14:58:23浏览次数:34  
标签:HDFS 存储 今生 Hadoop YARN MapReduce 前世 分布式

       

    Hello,小伙伴们,作为大数据的第一篇博文,肯定要先介绍一下大数据中的“大哥大”Hadoop了,别急,咱们慢慢介绍。

     一:Hadoop名称由来

     与很多其他的开源框架不同,Hadoop的名字并不是一个缩写,而是一个生造出来的词。据说是Hadoop之父Doug Cutting用儿子毛绒玩具大象的名字命名的,这也太个性了吧!

      二:Hadoop是干啥的?

           长话短说,Hadoop是一个提供了分布式存储(一个文件被拆分成很多个块,并且以副本的方式存储在各个节点中)和计算的 分布式系统基础架构:用户可以在不了解分布式底层细节的情况下进行使用。

      三:Hadoop的核心组件

  • Hadoop Common:支持其他Hadoop模块的通用工具
  • Hadoop Distributed File System (HDFS):HDFS实现将文件分布式存储在很多的服务器上
  • Hadoop YARN:YARN实现集群资源管理以及作业的调度分布式计算框架
  • Hadoop MapReduce:MapReduce是基于YARN的、可以实现在多机器上分布式并行计算的系统       

        四:Hadoop生态圈

    

 

  • 狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台。
  • 广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一子系统只解决某一个特定的问题域(甚至可能更窄),不搞统一型的一个全能系统,而是小而精的多个小系统。      

 

标签:HDFS,存储,今生,Hadoop,YARN,MapReduce,前世,分布式
From: https://www.cnblogs.com/tianpan666/p/17911196.html

相关文章

  • Hadoop Yarn Tool接口接入
    项目搭建参考Java实现对HadoopHDFS的API操作1.驱动类packagecn.coreqi.mapreduce.tool;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.util.Tool;importorg.apache.hadoop.util.ToolRunner;importjava.util.Arrays;publicclassWordCoun......
  • Hadoop YARN生产环境核心配置参数
    1.ResourceManager相关配置参数说明默认值备注yarn.resourcemanager.scheduler.class配置调度器,默认为容量调度器(Apache)org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler对并发度要求高,首选公平调度器,对并发度要求不高,则......
  • Hadoop YARN
    1.Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。1.Yarn基础架构Yarn主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。1.......
  • Hadoop 数据压缩
    1.概述1.好处&坏处优点:减少磁盘IO、减少磁盘存储空间缺点:增加CPU开销2.压缩的原则运算密集型的Job,少用压缩IO密集型的Job,多用压缩2.MR支持的压缩编码1.压缩算法对比介绍压缩格式Hadoop自带?算法文件扩展名是否可切片换成压缩格式后,原来的程序是否需要修改......
  • Hadoop快速入门
    Hadoop快速入门一、大数据思维分而治之所谓“分而治之”,就是把一个复杂的算法问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个分别找出各部分的解,再把各部分的解组成整个问题的解。传统的计算都是基于内存去完成的,但是内存是有限的,数据量太大,导致无法在较短......
  • java: 通过URL读取hadoop HDFS
    packagetju;importorg.apache.hadoop.fs.FsUrlStreamHandlerFactory;importorg.apache.hadoop.io.IOUtils;importjava.io.InputStream;importjava.net.MalformedURLException;importjava.net.URL;importjava.net.URLStreamHandlerFactory;publicclassReadF......
  • hadoop:通过Configuration读取hdfs
    packagetju;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io......
  • Hadoop 数据类型及序列化
    1.Hadoop数据类型Java类型HadoopWritable类型BooleanBooleanWritableWritableWritableWritableWritableWritableWritableWritableWritableWritable2.为何Hadoop有自身序列化与反序列化Java自身的序列化除去本身Bean的数据......
  • Hadoop NameNode(SecondaryNameNode) Fsimage和Edits解析
    NameNode被格式化之后,将在NameNode目录下产生一些文件1.Fsimage文件Fsimage文件是HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的所有目录和文件inode的序列化信息1.查看Fsimage文件1.oiv命令hdfsoiv-p文件类型-i镜像文件-o转换后文件的输出路径hdfs......
  • Hadoop 配置的优先级
    从低到高1.默认配置默认文件文件存放在Hadoop的jar包中的位置core-default.xmlhadoop-common-3.3.6.jar/core-default.xmlhdfs-default.xmlhadoop-hdfs-3.3.6.jar/hdfs-default.xmlyarn-default.xmlhadoop-yarn-common-3.3.6.jar/yarn-default.xmlmapred-d......