MapReduce也是Hadoop里的核心内容,非常著名,五星级必须要掌握哦,本篇文章就先抛砖引玉,对MapReduce做一个基本介绍。
到底什么是MapReduce
Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集。 MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map 的输出进行排序,然后输入到 reduce 中。MapReduce 框架专门用于 <key,value> 键值对处理,它将作业的输入视为一组 <key,value> 对,并生成一组 <key,value> 对作为输出。输入和输出的 key 和 value 都必须实现Writable 接口。
MapReduce非常适合海量数据的离线处理(俗称“批处理”)。也就是说,数据产生之后,不会立即进行清洗,而是在固定的周期进行处理,例如每天在凌晨12:00之后,处理前一天产生的数据。
标签:基本,map,处理,MapReduce,介绍,Hadoop,数据,输入 From: https://www.cnblogs.com/tianpan666/p/17913379.html