MapReduce论文总结

时间：2023-01-03 16:56:22浏览次数：55

标签：总结论文 worker MapReduce 任务 master 执行节点

解决了什么问题

MapReduce是隐藏了分布式环境下的代码复杂性，抽象出map和reduce两个阶段，分布式计算解决框架

如何实现

由MapReduce运行流程图可知，程序分为1个master节点和多个worker节点。worker节点负责实际计算，而master节点协调worker节点的任务分配。程序执行过程分为Map和Reduce两个阶段，Map阶段接收一组输入(例如多个文本文件)，执行用户自定义的map函数，输出中间key/value对(例如单词出现次数1)；Reduce阶段则是执行用户自定义的reduce函数，整合中间值(例如单词词频累加)，输出结果

可能会有什么问题

master节点宕机如何解决

master周期性的将自身数据写入磁盘，即checkpoint。如果这个master挂掉了，那么就可以从最新的checkpoint创建出一个新的备份，重新运行MapReduce程序

worker节点超时/宕机如何解决

master会周期性ping下每个worker。如果在一定时间内无法收到来自某个worker的响应，那么master就会将该worker标记为failed。正在由该worker进行的任务需要安排给其他的worker去完成

如何保证多个worker执行同一任务时的幂等性

由于可能存在worker节点超时，由原本本该他完成的任务，交给了别的worker。这样，这一个任务就会生成多个对应的输出，worker执行时生成系统临时文件，确定某一worker完成时，再由master重命名这些文件

优化

尽可能节省网络带宽

worker机器执行MapReduce操作时，输入数据尽可能在本地进行读取

提升执行速度

合理的任务粒度，包括map任务拆分为M个子任务，reduce任务拆分为R个子任务，worker机器数量
当MapReduce计算接近完成时，master会调度一个备用任务来执行剩下的处于正在执行中的任务

策略优化

合理的分区函数，哈希取模、前缀匹配等
有序的输出文件
map执行完成之后，执行Combiner函数，整合重复数据
跳过损坏的记录

MapReduce论文

标签：总结,论文,worker,MapReduce,任务,master,执行,节点
From： https://www.cnblogs.com/snowsteps/p/17022725.html

19个成就大事件，一个鹅厂自媒体人迟到的年终总结
元旦玩手机玩到了三点半，从10月份开始搞社群以来都没有这么疯狂过了，大家元旦过的开心吗？其实这个公众号我三年前就开了，一直没有更新，错过了公众号的风口，错过了短视频，后悔的要死......
总结HashSet和TreeSet的去重
HashSet的去重添加的对象需要重写hashCode()和equals()方法，其中hashCode()方法，应该是根据自定义类对象的成员属性值计算得来，equals()方法，应该是比较自定义类对象的成员属......
vue 面试问题总结
vue-cli工程常用的npm命令有哪些？全局安装vue-clinpminstall--globalvue-cli创建一个基于webpack模板的新项目vueinitwebpackmy-project进入项目目录，运行cd......
小程序开发总结三弹窗动态class 发送请求设置本地储存过期时间
弹窗<buttonclass="get_codebindtap="get_login">{{get_code}}</button>get_login(e){wx.showToast({title:'请输入手机号码',icon:'none',......
JVM面试大总结
一、汇总JVM是运行在操作系统之上的，它与硬件没有直接的交互。先说一下JVM的内存区域，当函数开始运行时，JVM拿到自己的内存将自己的内存区域进行了分割，分为五块区域：线程共享的......
论文-TCN
AnEmpiricalEvaluationofGenericConvolutionalandRecurrentNetworksforSequenceModeling图1图2图3图4图5表1......
编程三分钟5月技术总结
点击上方“编程三分钟”，马上关注，每天早上8:50准时推送。从4月27号开始，到现在我更新了30篇文章，涵盖开发技能、Linux、网络等各个方面，其中还包括了一个Git......
JVM面试大总结
一、汇总JVM是运行在操作系统之上的，它与硬件没有直接的交互。先说一下JVM的内存区域，当函数开始运行时，JVM拿到自己的内存将自己的内存区域进行了分割，分为五块区域：线程共享......
2022 年终总结｜技术飞速成长，生活颠沛流离
2022年快过去了，是时候回顾一下了。去年年末的时候，我从北京去了上海，去了一家外企。最开始的几个月是在上海这边的team，平时的工作都是和国内的同事沟通，但后来组织结构调整，我......
Java面试问答总结
问：什么是并发和并行？答：并发是在单核操作系统中，CPU通过切分时间片交替执行不同的线程；并行是在多核操作系统中，多个CPU同时执行不同的线程。并发和并行的目的都是为了最大化的......