首页 > 其他分享 >MapReduce原理——切片代码分析

MapReduce原理——切片代码分析

时间:2023-02-22 09:35:46浏览次数:41  
标签:文件 遍历 InputFormat 代码 MapReduce YARN 切片 FileInputFormat

(1)程序先找到数据存储的目录

(2)遍历目录对每个文件进行切片

(3)遍历一个文件:

    获取文件大小

    计算切片大小

    默认情况下,切片大小等于blocksize

    每次切片时都要判断剩下部分师否大于块的1.1倍,小于1.1划分为1个切片

    讲切片信息写到一个切片规划文件中

    整个切片的核心过程在getSplit()方法中完成。

    InputSplit只记录了切片元数据信息,比如起始位置、长度以及节点列表。

(4)提交切片规划文件到YARN上,YARN的MrAppMaster可以根据切片规划文件计算开启MapTask数

  首先进入写切片的方法

 

 

 

 再次进入,打断点

 

 进入第1个断点,进入到FileInputFormat类中.FileInputFormat继承了InputFormat类,同样InputFormat的实现类还有:

 

 向下执行获取最大值最小值参数,来设置切片大小,遍历目录,对文件切片

 

 

 

 对文件切片,先进行判断文件是否支持切片,然后计算切片大小

 

标签:文件,遍历,InputFormat,代码,MapReduce,YARN,切片,FileInputFormat
From: https://www.cnblogs.com/20203923rensaihang/p/17143136.html

相关文章