(1)本周做了什么,花在学习上多长时间,花在代码上多长时间,花在解决问题用了多长时间
本周主要完成了对于Hadoop框架当中的MapReduce的学习,每天会抽出三小时的时间进行学习。
本周继续学习科二考试内容,对于五项考试内容的准备我认为已经很充分了,但是今天教练建议我先去考科三,原因是这样会省点时间。。。。。算了,先去考科三吧!
MapReduce是由Google公司提出的编程模型,用于高效地处理大规模数据集。它的设计目标是简化数据处理过程,使得可以在分布式计算环境中轻松地并行处理海量数据。
MapReduce模型包含两个主要阶段:Map和Reduce。在Map阶段中,原始数据被拆分成多个小数据块,并由多个计算节点并行处理。每个计算节点都执行相同的映射函数(Map函数),该函数将输入数据映射为键值对的集合。这样,Map阶段将原始数据转换为一系列中间键值对。
在Map阶段完成后,进入Reduce阶段。在Reduce阶段中,中间键值对按照键进行分组,然后由多个计算节点并行执行Reduce函数。Reduce函数将相同键的值归并并进行一定的计算,从而生成最终的结果。
MapReduce的优势在于其能够充分利用分布式计算的潜力,将大规模数据处理任务分解成多个小任务,并在多台计算节点上并行执行。这种并行处理方式大大缩短了处理时间,提高了数据处理的效率。此外,MapReduce模型隐藏了底层的分布式计算细节,使得开发者能够更专注于业务逻辑而不是底层的数据分布和通信细节。
然而,MapReduce也有一些局限性。它适合处理批量处理任务,但对于实时性要求高的场景并不是最佳选择。随着技术的进步,新的数据处理模型和框架如Apache Spark等不断涌现,填补了MapReduce在某些方面的不足。
(2)下周准备做什么
下周的目标是完成Yarn的学习,这也是Hadoop框架的另一个重要组成部分。
(3)本周遇到的问题
没啥大问题,都是小case
标签:Map,报告,假期,Reduce,MapReduce,分布式计算,键值,进度,数据处理 From: https://www.cnblogs.com/wzs-study/p/17592165.html