MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle三个阶段的解析）

时间：2022-11-28 16:06:32浏览次数：53

标签：Map Combiner Shuffle Reduce reduce combiner 阶段

MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle）

MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle三个阶段的解析）

备注：map阶段包括partitioner、combiner；reduce阶段包括shuffle。

combiner阶段：

（combiner阶段：也可以称为local reduce）combiner阶段是程序员可以选择的，combiner其实也是一种reduce操作，因此我们看见WordCount类里是用reduce进行加载的。Combiner是一个本地化的reduce操作，它是map运算的后续操作，主要是在map计算出中间文件前做一个简单的合并重复key值的操作，例如我们对文件里的单词频率做统计，map计算时候如果碰到一个hadoop的单词就会记录为1，但是这篇文章里hadoop可能会出现n多次，那么map输出文件冗余就会很多，因此在reduce计算前对相同的key做一个合并操作，那么文件会变小，这样就提高了宽带的传输效率，毕竟hadoop计算力宽带资源往往是计算的瓶颈也是最为宝贵的资源，但是combiner操作是有风险的，使用它的原则是combiner的输入不会影响到reduce计算的最终输入，例如：如果计算只是求总数，最大值，最小值可以使用combiner，但是做平均值计算使用combiner的话，最终的reduce计算结果就会出错。

shuffle阶段：

将map的输出作为reduce的输入的过程就是shuffle了，这个是mapreduce优化的重点地方。shuffle阶段采用HTTP协议从各个map task上远程拷贝结果。Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道MapReduce计算模型一般包括两个重要的阶段：Map是映射，负责数据的过滤分发；Reduce是规约，负责数据的计算归并。Reduce的数据来源于Map，Map的输出即是Reduce的输入，Reduce需要通过 Shuffle来获取数据。从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端，在Map端包括Spill过程，在Reduce端包括copy和sort过程。Spill过程包括输出、排序、溢写、合并等步骤。

partitioner阶段：

在进行MapReduce计算时，有时候需要把最终的输出数据分到不同的文件中，比如按照省份划分的话，需要把同一省份的数据放到一个文件中；按照性别划分的话，需要把同一性别的数据放到一个文件中。我们知道最终的输出数据是来自于Reducer任务。那么，如果要得到多个文件，意味着有同样数量的Reducer任务在运行。Reducer任务的数据来自于Mapper任务，也就说Mapper任务要划分数据，对于不同的数据分配给不同的Reducer任务运行。Mapper任务划分数据的过程就称作Partition。负责实现划分数据的类称作Partitioner。更多优秀文章请关注：

[1]: 董西城Hadoop中shuffle阶段流程分析

[2]: [通过腾讯shuffle部署对shuffle过程进行详解]http://www.open-open.com/lib/view/open1400682430331.html

标签：Map,Combiner,Shuffle,Reduce,reduce,combiner,阶段
From： https://blog.51cto.com/u_13618048/5891674

【c++】map用法详解
【c++】map用法详解LeeMooq已于2022-05-0122:01:43修改21398收藏46分类专栏：c++学习文章标签：c++版权c++学习专栏收录该内容5篇文章3订阅订阅专栏map是c++标准......
12 STL-map/multimap
重新系统学习c++语言，并将学习过程中的知识在这里抄录、总结、沉淀。同时希望对刷到的朋友有所帮助，一起加油哦！每一次学习都是为了追求智慧！写在前面，本篇章主要介......
启动报Error while adding the mapper 'xxx.xxx.xxx' to configuration.[java.lang.Il
【问题】启动报异常错误Errorwhileaddingthemapper'xxx.xxx.xxx'toconfigurationjava.lang.IllegalStateException:Notypehandlerfoundforpropertyxxx【......
对集合List<Map<String,Object>>进行一个分页
需求要对集合List<Map<String,Object>>进行一个分页：/***利用subList方法进行分页**@paramlist分页数据*@parampagesize页面大......
java将List<Map<String,Object>>导出Excel
遇到了个需要导出Excel的需求，经过百度查到方法在此记录一下：publicstaticvoidcreateExcel(List<Map<String,Object>>mapList,Stringfilename,Stringtitle,Http......
拓端tecdat|R语言代码编写使用多重聚合预测算法（MAPA）进行时间序列分析
R语言中使用多重聚合预测算法（MAPA）进行时间序列分析这是一个简短的演示，可以使用该代码进行操作。使用MAPA生成预测。>mapasimple(admissions)......
20220705 RequestMappingHandlerAdapter
概述DispatcherServlet九大组件中HandlerAdapter的实现之一SpringBoot启动日志：2022-06-0919:14:14.788DEBUG13144---[main]s.w.s.m.m.a.RequestM......
感悟思维提升的阶段
爱因斯坦曾留下一句非常牛的话，所有困难的问题答案都在另一个层次，只有当你的心智提升后才能解决一层级的问题，决定一个人命运的不是性格，不是能力，而是提升心智，提升分为7个阶段......
拓端tecdat|R语言编程指导ggmap空间可视化机动车碰撞–街道地图热力图
R语言ggmap空间可视化机动车碰撞–街道地图热力图在本文中，我将创建纽约市机动车碰撞的市镇级热图。数据来自纽约市开放数据。特别是，我将从镇级碰撞......
拓端tecdat|R语言编程指导ggmap空间可视化机动车交通事故地图
R语言ggmap空间可视化机动车交通事故地图在本文中，我使用ggmap可视化纽约市的交通事故。数据来自纽约市开放数据。我的数据范围是2012年至2015年......

MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle三个阶段的解析）

MapReduce作业Map阶段和Reduce阶段重要过程详述（Partitioner、Combiner、Shuffle三个阶段的解析）

相关文章

赞助商

阅读排行