首页 > 其他分享 >mapreduce流程

mapreduce流程

时间:2024-11-05 21:58:56浏览次数:1  
标签:map 流程 reduce mapreduce 切片 任务 键值 缓冲区

  • 逻辑切片

1、逻辑切片对block块进行切分,切分的结果将影响map任务的数量
2、split切片的大小默认是128M,与block块大小一样,一个block块会有一个切片
3、如果读取到最后一个block块时会与前一个block进行合并,合并后的大小如果大于1281.1将会各自生成一个切片,合并后的大小如果小于1281.1,就会只生成一个切片

  • map任务

1、数据进入到map任务会被封装成<k,v>键值对的格式
2、map任务要做的事,每个需求的处理逻辑是不一样的,所以map任务的逻辑需要自己在程序中编写
3、每读取到的一行数据都会执行一遍map逻辑

  • 环形缓冲区

概述

1、被map任务处理过的数据要写入磁盘中,直接写入磁盘的话,当map任务生成的数据过多时会来不及写入磁盘,环形缓冲区可以解决这个问题
2、环形缓冲区是一个基于内存的数据结构,默认大小是100M

工作内容

1、map任务输出的键值对会先进入到环形缓冲区
2、对map任务的键值对结果根据建进行编号【编号取决于reduce的个数,reduce的个数可以在执行mapreduce作业之前自己设置,默认只提供一个reduce】
3、编号之后对缓冲区的键值对数据进行排序【快速排序】
4、当环形缓冲区的数据内容达到80%的时候开始向磁盘将这80%的数据整个溢写到磁盘,形成一个小文件
小文件写到磁盘后
会把每个map任务产生小文件合并成一个,合并的过程中排序归并排序,【将编号一样的排在一起】

环形缓冲区最终在磁盘上小文件的数量

1、溢写的百分比,百分比越小,生成的小文件越多
2、split切片的大小,切片越大,map任务处理的数据量越多,就会有很多的80%溢写,生成的小文件就越多

  • reduce阶段

1、reduce从每个map结果文件中拉取分区编号相同的数据,形成一个文件
2、拉取的次数多,形成的小文件就多,这时会把分区编号去掉然后把小文件合并,合并的过程中使用归并排序,相同的键为一组,值生成一个迭代器,构成一个新的键值对
3、归并排序后的结果交给reduce任务【reduce任务的逻辑需要自己编写】进行处理
4、每一个分组后的键值对,都会执行一遍reduce方法的逻辑

标签:map,流程,reduce,mapreduce,切片,任务,键值,缓冲区
From: https://www.cnblogs.com/w-ll/p/18526741

相关文章

  • mapreduce案例_词频统计
    统计文件中英文单词出现的次数importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.......
  • 开发中使用UML的流程_01概述
    目录CIM-1:定义业务流程CIM-2:分析业务流程​CIM-3:定义系统范围​PIM-1:分析系统流程PIM-2:分析业务规则PIM-3:定义静态结构PIM-4:定义操作和方法开发中使用UML的流程,主要分为7部分,具体如下:CIM-1:定义业务流程定义及分析业务流程是为了尽快理清系统范围,以便估算开发成本及......
  • 2024/11/4日 日志 关于JavaScript 变量、数据类型、类型转换和流程控制语句的学习
    经过两天的休憩,状态更佳,后面的笔记和学习进度也会加快JavaScript变量、数据类型、类型转换和流程控制语句点击查看代码----变量--JavaScript中用var关键字(variable的缩写)来声明变量--vartest=20;--test="张三":--·JavaScript是一门弱类型语言变量可......
  • 2025浙江省考报名流程详细教程
    2025年浙江省考报名马上就要开始了,有想要参加浙江省考的同学,可以提前看一下报名流程,和报名照要求。报名时间:11月6日9时一11月11日17时南核时间:11月6日9时一11月13日17时缴费时间:11月14日9时一11月18日17时笔试时间:2024年12月8日报名照要求:近期免冠正面证件照,源文件必......
  • mapreduce流程
    *客户端通过hadoopfs-put/bigdata命令将元数据切分成块存放在HDFS上,且每一个块我们给大小128M*之后我们将每一个block块通过逻辑切片,切成一个个split()切片,一般,我们的默认切片大小跟block块保持一致,如果我们读到最后一个block块,与前一个block块组合起来的大小小于140M,将......
  • flutter 专题四 Flutter渲染流程
    一、Widget- Element -RenderObject关系二、Widget、Element、RenderObject分别表示什么2.1 Widget    Widget描述和配置子树的样子Widget就是一个个描述文件,这些描述文件在我们进行状态改变时会不断的build。但是对于渲染对象来说,只会使用最小的开销来......
  • SpringBoot源码解析(二):启动流程之引导上下文DefaultBootstrapContext
    SpringBoot源码系列文章SpringBoot源码解析(一):启动流程之SpringApplication构造方法SpringBoot源码解析(二):启动流程之引导上下文DefaultBootstrapContext目录前言一、入口二、DefaultBootstrapContext1、BootstrapRegistry接口2、BootstrapContext接口3、DefaultBo......
  • 亚马逊-专利投诉系统-批量投诉-开发-流程引擎
     系统图如图所示所需数据直接通过xls导入。开发过程:导入xls表格自动生成数据模型。 点击生成表单即可自动创建一个前端UI,如第一张图所示。 新增,删除,修改,导入,导出,全部功能默认自带OK。 方便灵活调整各种字段,新增字段,修改字段。一个人使用10分钟即可完成。到此-CRM......
  • 仓储物流机器人信息流【任务下发到机器人执行的完整流程】
    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、业务系统下发任务二、调度系统任务拆解与分配三、机器人控制系统解析指令四、各功能模块执行与传感反馈五、实时数据上报与状态监控六、调度系统反馈与异常处理七、任务完成与电量管理总......
  • matlab学习笔记:第四章程序流程控制(总)
    4.1条件语句 4.1.1if-elseif-else-end语句易错点:elseif关键字中间不能加空格,不能写成elseif,这和C、Java等语言不同。注意:在使用if语句时,if和end这两个关键字是无论如何都不能省略的。而elseif和else可以根据自己的需要来决定是否添加。如果if和elseif后面表达式的计算结......