MapReduce
理解什么是map,什么是reduce,为什么叫mapreduce
Map
Map:是一种映射过程,具体来说把一组数据按照某种Map函数映射成新的数据。也就是说,map主要是:映射、变换、过滤的过程。一条数据进入map会被处理成多条数据,也就是1进N出。
Reduce
Reduce:是一种归纳过程,具体来说把若干组映射结果进行汇总并输出。也就是说,reduce主要是:分解、缩小、归纳的过程。一组数据进入reduce会被归纳为一组数据(或者多组数据),也就是一组进N组出。
MapReduce
MapReduce:是将Map过程和Reduce过程链接起来。
输入数据集—map—>中间结果数据集—reduce—>最终结果数据集
在mapreduce的过程中,想要实现复杂的操作,就要多个类似上图的计算串联成为一个复杂计算过程,得到想要的结果,因为mapreduce过程更关心的是方法(过程的实现),并没有给出API层面的数据集的概念。因此可以理解为,mapreduce过程是整个计算框架的基本运算单位。