Hadoop（十八）MapReduce Shuffle机制

时间：2024-09-19 10:36:09浏览次数：10

标签：文件 Shuffle 分区 ReduceTask Hadoop MapTask MapReduce 排序

MapReduce工作流程

上面的流程是整个MapReduce最全工作流程，但是Shuffle过程只是从第7步开始到第16步结束，具体Shuffle过程详解，如下：

MapTask收集map()方法输出的kv对，放到内存缓冲区中
从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件
多个溢出文件会被合并成大的溢出文件
在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序
ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据
ReduceTask会抓取到同一个分区的来自不同MapTask的结果文件，ReduceTask会将这些文件再进行合并（归并排序）
合并成大文件后，Shuffle的过程也就结束了，后面进入ReduceTask的逻辑运算过程（从文件中取出一个一个的键值对Group，调用用户自定义的reduce()方法）

注意

Shuffle中的缓冲区大小会影响到MapReduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快
缓冲区的大小可以通过参数调整，参数：mapreduce.task.io.sort.mb默认100M

Shuffle机制

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle

一、Partition分区

将统计结果按照条件输出到不同文件中
默认分区是根据key的hashCode对ReduceTasks个数取模得到的，用户没法控制哪个key存储到哪个分区

自定义Partitoner步骤

自定义类继承Partitioner，重写getPartition()方法

public class CustomPartitioner extends Partitioner<Text, FlowBean> {
  @Override
  public int getPartition(Text key, FlowBean value, int numPartitions) {
  // 控制分区代码逻辑
  … …
    return partition;
  }
}

在Job驱动中，设置自定义Partitioner

job.setPartitionerClass(CustomPartitioner.class);

自定义Partition后，要根据自定义Partitioner的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(5);

分区总结

如果ReduceTask的数量 > getPartition的结果数，则会多产生几个空的输出文件part-r-000xx；
如果1 < ReduceTask的数量 < getPartition的结果数，则有一部分分区数据无处安放，会Exception；
如果ReduceTask的数量 = 1，则不管MapTask端输出多少个分区文件，最终结果都交给这一个ReduceTask，最终也就只会产生一个结果文件part-r-00000；
分区号必须从0开始，逐一累加

二、WritableComparable排序

MapTask和ReduceTask均会对数据按照key进行排序，该操作属于Hadoop的默认行为，任何应用程序中的数据均会被排序，而不管逻辑上是
否需要
默认排序是按照字典顺序排序，且实现该排序的方法是快速排序
对于MapTask，它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数据溢写到磁盘上，而当数据处理完毕后，它会对磁盘上所有文件进行归并排序
对于ReduceTask，它从每个MapTask上远程拷贝相应的数据文件，如果文件大小超过一定阈值，则溢写磁盘上，否则存储在内存中。如果磁盘上文件数目达到一定阈值，则进行一次归并排序以生成一个更大文件；如果内存中文件大小或者数目超过一定阈值，则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序

排序分类

部分排序：MapReduce根据输入记录的键对数据集排序，保证输出的每个文件内部有序
全排序：最终输出结果只有一个文件，且文件内部有序，实现方式是只设置一个ReduceTask，但该方法在处理大型文件时效率极低
辅助排序：在Reduce端对key进行分组
二次排序：在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序

三、Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件
Combiner组件的父类就是Reducer
Combiner和Reducer的区别在于运行的位置，Combiner是在每一个MapTask所在的节点运行；Reducer是接收全局所有Mapper的输出结果
Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量。
Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟Reducer的输入kv类型要对应起来
Mapper
3 5 7 ->(3+5+7)/3=5
2 6 ->(2+6)/2=4
Reducer
(3+5+7+2+6)/5=23/5 不等于 (5+4)/2=9/2

标签：文件,Shuffle,分区,ReduceTask,Hadoop,MapTask,MapReduce,排序
From： https://www.cnblogs.com/shihongpin/p/18419989

Hadoop（十七）MapReduce 切片机制 InputFormat
切片与MapTask并行度决定机制MapTask的并行度决定Map阶段的任务处理并发度，进而影响到整个Job的处理速度数据块：Block是HDFS物理上把数据分成一块一块，数据块是HDFS存储数据单位数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储，数据切片是MapReduc......
Hadoop
Hadoop目录Hadoop一、简介Hadoop生态Hadoop组成hdfsyarnmapreduce：HDFS、YARN、MapReduce三者关系：常用端口号：常用的配置文件：部署二、HDFS详解HDFS概述HDFS成员HDFS读写流程HDFS常用命令HDFS编程三、MapReduce详解MapReduce概述MapReduce架构MapTask详解ReduceTask详解shuffle详解M......
Hadoop（十五）项目考核 WordCount案例
一、需求分析需求：在给定的文本文件中统计输出每一个单词出现的总次数SEVENTEEN.txt文本内容如下：saythenameseventeenhelloweareseventeennicetomeetyouyouverynice按照MapReduce编程规范，分别编写Mapper，Reducer，Driver1、Mapper（1）将MapTask传过来的文本内容......
Hadoop
1.概念分布式系统基础架构。主要包括分布式文件系统HDFS（HadoopDistributedFileSystem）、分布式计算系统MapReduce和分布式资源管理系统YARN2.构成2.1HDFSHDFS提供了高可靠性（主要通过多副本来实现）、高扩展性（通过添加机器来达到线性扩展）和高吞吐率的数据存储服务HDFS的......
Hadoop（十四）MapReduce概述
一、定义MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上二、优缺点优点描述易于编程它简单的......
Hadoop（十三）DataNode
一、DataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳2、DataNode启动后向NameNode注册，通过后，周期性（6小时）的向NameNode上报所有的块信息3、心跳是每3秒一次，心跳返回结果带有......
Hadoop（十二）NameNode 和 SecondaryNameNode
一、NN和2NN工作机制1、NameNode中的元数据存储在哪里？存储在NameNode节点的磁盘中会导致效率过低，因为经常需要进行随机访问和响应客户请求；存储在内存中，一旦元数据丢失，整个集群就无法工作，也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件（只进行追加操作，效率很......
Hadoop（十一）HDFS 读写数据流程
HDFS读写数据流程一、写数据流程1、客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在2、NameNode返回是否可以上传3、客户端请求第一个Block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点，分别为dn1......
计算机毕业设计Python深度学习水文预测水文可视化水文爬虫洪水自然灾害预测水文数
多数据源水文数据获取技术与应用分析摘要随着信息技术的不断发展，水文数据获取和分析成为了现代水文学研究的重要内容。多数据源水文数据获取技术与应用分析系统为我们提供了一种新的水文数据处理和分析方式。该系统利用爬虫技术获取长江水文网的数据，采用 Python ......
计算机毕业设计Flink+Hadoop广告推荐系统广告预测广告数据分析可视化广告爬虫大数
《Flink+Hadoop广告推荐系统》开题报告一、项目背景与意义随着互联网技术的飞速发展和数据量的爆炸性增长，广告推荐系统已成为互联网企业提升用户体验和增加收益的重要手段。传统的广告推荐系统往往面临计算效率低、实时性差、推荐精度不足等问题，难以满足当前复杂多变的业务需......