首页 > 其他分享 >Hadoop生态圈拓展内容(二)

Hadoop生态圈拓展内容(二)

时间:2024-09-12 18:22:05浏览次数:15  
标签:文件 存储 ApplicationMaster 拓展 Hadoop 传输 数据 生态圈

7. Hadoop的Block大小及原因

Hadoop的块默认大小是128MB。在Hadoop 1.x和2.x版本中默认为64MB。原因如下:

  • 文件块越大,寻址时间越短,但磁盘的传输时间越长。
  • 文件块越小,寻址时间越长,但磁盘传输时间越短。
  • 块大小的设置需要在寻址时间和传输时间之间找到平衡。

8. Hadoop中Block划分的原因

  1. 分布式存储:将文件划分为块,可以将这些块分散存储在不同的节点上,实现数据的分布式存储和并行处理。
  2. 数据冗余:通过副本机制确保数据的可靠性和容错性。
  3. 数据局限性:将计算任务分配给存储数据的节点,以减少数据的网络传输和提高计算效率。
  4. 管理和调度:块的大小可以根据具体应用和硬件配置进行调整,以优化数据处理和存储性能。

9. Hadoop中常见的压缩算法

  1. Gzip:可以减小文件的大小,但无法进行并行处理。
  2. Snappy:谷歌开发,具有很高的压缩和解压缩速度。
  3. LZO:较快的压缩算法,适用于大数据压缩。
  4. Bzip2:较高压缩比,速度较慢。
  5. LZ4:极快压缩速度,压缩比较低。

10. Hadoop作业提交到YARN的流程

  1. ResourceManager接收到作业请求后,生成唯一ApplicationID,并为作业分配一个ApplicationMaster。
  2. ResourceManager将ApplicationID和ApplicationMaster的地址返回给客户端。
  3. 客户端与ApplicationMaster建立通信,发送资源请求。
  4. ApplicationMaster收到作业资源需求和启动命令,向ResourceManager申请资源。
  5. ResourceManager为ApplicationMaster分配所需资源。
  6. ApplicationMaster收到资源位置信息后,与NodeManager通信,将作业所需的资源分配给具体的任务。
  7. 每个任务在独立的Container中运行,通过心跳机制汇报任务情况。
  8. ApplicationMaster收到所有任务完成的信息,向ResourceManager注销自己。
  9. ResourceManager将作业从YARN状态存储中删除,释放相关资源。

11. Hadoop的Combiner的作用

Combiner是在Map阶段之后,Reduce阶段之前,对Map输出的中间数据进行本地合并和压缩,减少数据传输量,提高整体性能。Combiner可以将相同Key的多个Map输出结果进行合并,减少网络传输的数据量,降低Reduce的负载,提高效率。

12. Hadoop序列化和反序列化

序列化是将数据转换为字节流的过程,以便在网络传输或存储时占用更少的空间。反序列化则是将字节流重新转换成数据的过程,以便在各个节点之间传输时恢复原始数据。

13. Hadoop小文件处理问题

导致的问题

  1. 存储开销:每个小文件需要占据磁盘空间,默认的块大小是128MB,大部分小文件会浪费磁盘空间。
  2. 元数据开销:NameNode会为每个文件分配一个元数据块,小文件数量过多时,元数据存储和访问的开销会增加。
  3. 数据读取效率低:小文件数量庞大,导致大量的寻址时间和网络传输开销。
  4. 任务调度:MapReduce任务是以块为单位进行调度的,小文件数量庞大会导致任务调度的开销增加。

处理办法

  1. 合并小文件:使用工具HAR(Hadoop Archive)或者自定义脚本进行合并操作,减少存储和元数据开销(将多个小文件打包成一个HAR文件,NameNode中的元数据也就存储一份)。
  2. SequenceFile格式:将小文件转换成SequenceFile格式,将多个小文件合并成一个SequenceFile文件,有效处理小文件。
  3. 数据归档:将多个小文件合并为一个大文件,进行归档存储。
  4. 数据压缩:压缩小文件,减少存储空间和网络传输开销。

标签:文件,存储,ApplicationMaster,拓展,Hadoop,传输,数据,生态圈
From: https://blog.csdn.net/m0_58076578/article/details/142152660

相关文章

  • Hadoop(五)生产集群搭建(二)
    完全分布式运行模式一、SSH无密登录配置1、基本语法ssh另一台电脑的IP地址[user@hadoop102~]$sshhadoop103退回hadoop102[user@hadoop103~]$exit2、配置(1)生成公钥和私钥[user@hadoop102.ssh]$pwd/home/atguigu/.ssh[user@hadoop102.ssh]$ssh-keygen-tr......
  • hadoop之MapReduce
    MapReduce的概念Hadoop的三大组件:HDFS、Yarn、MapReduce。HDFS:解决的是分布式存储的问题。MapReduce:解决的是计算问题。Yarn:计算的时候,使用的资源如何协调(Windows操作系统)mapReduce的优缺点:优点1、易于编程   代码写起来有固定的格式,编写难度非常的小,号称是......
  • 为AppInventor2开发自己的拓展(Extension) - 拓展开发入门篇
    //为什么需要开发拓展?//AppInventor2是积木式在线安卓开发环境,利用拖拽式的方式实现代码块堆叠,从而完成相应的逻辑。上手很容易,但是由于代码块提供的功能有限,使用比较单一,在开发上有很大的局限性,但是它提供了拓展Extension特性,开放了源码,使得开发者可以根据自己的需要,自......
  • 基于Hadoop的广州招聘可视化分析系统 基于SpringBoot的广州招聘可视化分析系统 大数据
    ......
  • hadoop中国电动汽车市场分析与可视化-计算机毕业设计源码40244
    目 录摘要1绪论1.1选题背景与意义1.2研究现状1.3研究内容1.4论文结构与章节安排2 中国电动汽车市场分析与可视化系统系统分析2.1可行性分析2.1.1技术可行性分析2.1.2 经济可行性分析2.1.3操作可行性分析2.2系统功能分析2.2.1功能性分析......
  • Hadoop之HDFS读写流程
    HDFS读写流程1.写入的流程1.Client客户端发送上传请求,通过RPC与NameNode建立通信,NameNode检查该用户是否有上传权限,以及上传的文件是否在HDFS对应的目录下重名,如果这两者有任意一个不满足,则直接报错,如果两者都满足,则返回给客户端一个可以上传的信息;2.Client根据文件的大......
  • md5拓展攻击
    md5拓展攻击【工具】hash-ext-attack/img/img_1.pngatmaster·shellfeel/hash-ext-attack·GitHub【攻击方法例题】https://ctf.org.cn/2019/11/19/哈希长度扩展攻击以及HashPump安装使用和两道题目/实际中的利用条件如下:基于哈希的消息认证码(MAC):长度扩展攻击的......
  • 高颜值官网(1):百货类网站UI,拓展一下你的眼界。
    Hi、我是大千UI工场,本期开始每次分享8-10个各行业的大气颜值官网,欢迎关注我,以便及时收到更新消息,我是10年UI和前端领域老司机了,一定不负所望。      ......