首页 > 其他分享 >Hadoop生态圈拓展内容（二）

Hadoop生态圈拓展内容（二）

时间：2024-09-12 18:22:05浏览次数：15

标签：文件存储 ApplicationMaster 拓展 Hadoop 传输数据生态圈

7. Hadoop的Block大小及原因

Hadoop的块默认大小是128MB。在Hadoop 1.x和2.x版本中默认为64MB。原因如下：

文件块越大，寻址时间越短，但磁盘的传输时间越长。
文件块越小，寻址时间越长，但磁盘传输时间越短。
块大小的设置需要在寻址时间和传输时间之间找到平衡。

8. Hadoop中Block划分的原因

分布式存储：将文件划分为块，可以将这些块分散存储在不同的节点上，实现数据的分布式存储和并行处理。
数据冗余：通过副本机制确保数据的可靠性和容错性。
数据局限性：将计算任务分配给存储数据的节点，以减少数据的网络传输和提高计算效率。
管理和调度：块的大小可以根据具体应用和硬件配置进行调整，以优化数据处理和存储性能。

9. Hadoop中常见的压缩算法

Gzip：可以减小文件的大小，但无法进行并行处理。
Snappy：谷歌开发，具有很高的压缩和解压缩速度。
LZO：较快的压缩算法，适用于大数据压缩。
Bzip2：较高压缩比，速度较慢。
LZ4：极快压缩速度，压缩比较低。

10. Hadoop作业提交到YARN的流程

ResourceManager接收到作业请求后，生成唯一ApplicationID，并为作业分配一个ApplicationMaster。
ResourceManager将ApplicationID和ApplicationMaster的地址返回给客户端。
客户端与ApplicationMaster建立通信，发送资源请求。
ApplicationMaster收到作业资源需求和启动命令，向ResourceManager申请资源。
ResourceManager为ApplicationMaster分配所需资源。
ApplicationMaster收到资源位置信息后，与NodeManager通信，将作业所需的资源分配给具体的任务。
每个任务在独立的Container中运行，通过心跳机制汇报任务情况。
ApplicationMaster收到所有任务完成的信息，向ResourceManager注销自己。
ResourceManager将作业从YARN状态存储中删除，释放相关资源。

11. Hadoop的Combiner的作用

Combiner是在Map阶段之后，Reduce阶段之前，对Map输出的中间数据进行本地合并和压缩，减少数据传输量，提高整体性能。Combiner可以将相同Key的多个Map输出结果进行合并，减少网络传输的数据量，降低Reduce的负载，提高效率。

12. Hadoop序列化和反序列化

序列化是将数据转换为字节流的过程，以便在网络传输或存储时占用更少的空间。反序列化则是将字节流重新转换成数据的过程，以便在各个节点之间传输时恢复原始数据。

13. Hadoop小文件处理问题

导致的问题：

存储开销：每个小文件需要占据磁盘空间，默认的块大小是128MB，大部分小文件会浪费磁盘空间。
元数据开销：NameNode会为每个文件分配一个元数据块，小文件数量过多时，元数据存储和访问的开销会增加。
数据读取效率低：小文件数量庞大，导致大量的寻址时间和网络传输开销。
任务调度：MapReduce任务是以块为单位进行调度的，小文件数量庞大会导致任务调度的开销增加。

处理办法：

合并小文件：使用工具HAR（Hadoop Archive）或者自定义脚本进行合并操作，减少存储和元数据开销（将多个小文件打包成一个HAR文件，NameNode中的元数据也就存储一份）。
SequenceFile格式：将小文件转换成SequenceFile格式，将多个小文件合并成一个SequenceFile文件，有效处理小文件。
数据归档：将多个小文件合并为一个大文件，进行归档存储。
数据压缩：压缩小文件，减少存储空间和网络传输开销。

标签：文件,存储,ApplicationMaster,拓展,Hadoop,传输,数据,生态圈
From： https://blog.csdn.net/m0_58076578/article/details/142152660

相关文章

Hadoop（五）生产集群搭建（二）
完全分布式运行模式一、SSH无密登录配置1、基本语法ssh另一台电脑的IP地址[user@hadoop102~]$sshhadoop103退回hadoop102[user@hadoop103~]$exit2、配置（1）生成公钥和私钥[user@hadoop102.ssh]$pwd/home/atguigu/.ssh[user@hadoop102.ssh]$ssh-keygen-tr......
hadoop之MapReduce
MapReduce的概念Hadoop的三大组件：HDFS、Yarn、MapReduce。HDFS：解决的是分布式存储的问题。MapReduce:解决的是计算问题。Yarn:计算的时候，使用的资源如何协调（Windows操作系统）mapReduce的优缺点：优点1、易于编程代码写起来有固定的格式，编写难度非常的小，号称是......
为AppInventor2开发自己的拓展(Extension) - 拓展开发入门篇
//为什么需要开发拓展？//AppInventor2是积木式在线安卓开发环境，利用拖拽式的方式实现代码块堆叠，从而完成相应的逻辑。上手很容易，但是由于代码块提供的功能有限，使用比较单一，在开发上有很大的局限性，但是它提供了拓展Extension特性，开放了源码，使得开发者可以根据自己的需要，自......
基于Hadoop的广州招聘可视化分析系统基于SpringBoot的广州招聘可视化分析系统大数据
......
hadoop中国电动汽车市场分析与可视化-计算机毕业设计源码40244
目录摘要1绪论1.1选题背景与意义1.2研究现状1.3研究内容1.4论文结构与章节安排2 中国电动汽车市场分析与可视化系统系统分析2.1可行性分析2.1.1技术可行性分析2.1.2 经济可行性分析2.1.3操作可行性分析2.2系统功能分析2.2.1功能性分析......
Hadoop之HDFS读写流程
HDFS读写流程1.写入的流程1.Client客户端发送上传请求，通过RPC与NameNode建立通信，NameNode检查该用户是否有上传权限，以及上传的文件是否在HDFS对应的目录下重名，如果这两者有任意一个不满足，则直接报错，如果两者都满足，则返回给客户端一个可以上传的信息；2.Client根据文件的大......
md5拓展攻击
md5拓展攻击【工具】hash-ext-attack/img/img_1.pngatmaster·shellfeel/hash-ext-attack·GitHub【攻击方法例题】https://ctf.org.cn/2019/11/19/哈希长度扩展攻击以及HashPump安装使用和两道题目/实际中的利用条件如下：基于哈希的消息认证码(MAC)：长度扩展攻击的......
高颜值官网（1）：百货类网站UI，拓展一下你的眼界。
Hi、我是大千UI工场，本期开始每次分享8-10个各行业的大气颜值官网，欢迎关注我，以便及时收到更新消息，我是10年UI和前端领域老司机了，一定不负所望。 ......

赞助商

阅读排行