Hadoop中的MapReduce框架

时间：2023-01-05 10:04:02浏览次数：36

标签：框架作业 JobTracker Hadoop 任务 MapReduce 键值

一个MapReduce作业通常会把输入的数据集切分为若干独立的数据块，由Map任务以完全并行的方式去处理它们。

框架会对Map的输出先进行排序，然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中，整个框架负责任务的调度和监控，以及重新执行已经关闭的任务。

通常，MapReduce框架和分布式文件系统是运行在一组相同的节点上，也就是说，计算节点和存储节点通常都是在一起的。这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使得整个集群的网络带宽被非常高效地利用。

1 MapReduce框架的组成

Hadoop中的MapReduce框架_项目经理

（1）JobTracker

　　JobTracker负责调度构成一个作业的所有任务，这些任务分布在不同的TaskTracker上（由上图的JobTracker可以看到2 assign map 和 3 assign reduce）。你可以将其理解为公司的项目经理，项目经理接受项目需求，并划分具体的任务给下面的开发工程师。

　　（2）TaskTracker

　　TaskTracker负责执行由JobTracker指派的任务，这里我们就可以将其理解为开发工程师，完成项目经理安排的开发任务即可。

2 MapReduce的输入输出

键值对上，也就是说，框架把作业的输入看成是一组键值对，同样也产生一组键值对作为作业的输出，这两组键值对有可能是不同的。

一个MapReduce作业的输入和输出类型如下图所示：可以看出在整个流程中，会有三组键值对类型的存在。

Hadoop中的MapReduce框架_键值对_02

3 MapReduce的处理流程

　　这里以WordCount单词计数为例，介绍map和reduce两个阶段需要进行哪些处理。单词计数主要完成的功能是：统计一系列文本文件中每个单词出现的次数，如图所示：

Hadoop中的MapReduce框架_任务处理_03

（1）map任务处理

Hadoop中的MapReduce框架_项目经理_04

（2）reduce任务处理

Hadoop中的MapReduce框架_任务处理_05

标签：框架,作业,JobTracker,Hadoop,任务,MapReduce,键值
From： https://blog.51cto.com/u_15130867/5989475

Spark框架下均值漂移算法对舆情聚类的分析
知网链接原文链接张京坤，王怡怡软件导刊 2022年21卷第6期页码:141-146DOI：10.11907/rjdk.211889 中图分类号：TP274纸质出版日期：2022-06-15，收稿日期：2......
微服务框架Dubbo环境部署实战
目录一.dubbo概述1.什么是微服务2.dubbo介绍3.dubbo架构二.部署dubbo服务1.部署JDK环境2.部署provider组件3.验证zookeeper的znode信息4.部署consumer环境5.启动多个消费者......
jango框架:forms组件渲染标签、forms组件展示信息、forms组件校验补充、forms组件参数
目录forms组件渲染标签forms组件展示信息forms组件校验补充钩子函数forms组件参数补充forms组件源码剖析modelform组件基本使用classMeta下常用参数save()方法forms组件......
django框架:django中间件
django中间件官方说法：中间件是一个用来处理django的请求和响应的框架级别的钩子。说的直白一点中间件是帮助我们在视图函数执行之前和执行之后都可以做一些额外的操作，他本......
5分钟快速掌握 Python 定时任务框架
APScheduler简介在实际开发中我们经常会碰上一些重复性或周期性的任务，比如像每天定时爬取某个网站的数据、一定周期定时运行代码训练模型等，类似这类的任务通常需要我们手......
Swift基础之如何使用iOS 9的Core Spotlight框架
本文由CocoaChina译者KingOfOnePiece（博客）翻译作者：GABRIELTHEODOROPOULOS?校对：hyhSuper原文：HowToUseCoreSpotlightFrameworkiniOS9iOS每一次版本的......
一些 NuGet 程序包是使用不同于当前目标框架的目标框架安装的，可能需要重新安装
何时重新安装包包还原后的损坏引用：如果已打开项目并还原了NuGet包，但仍看见了损坏的引用，请尝试重新安装每个包。项目因删除文件损坏：NuGet不会阻止删除从包添加的项，因......
spring5框架
概述：Spring是轻量级的开源的JavaEE框架Spring可以解决企业应用开发的复杂性Spring有两个核心部分：IOC和AOPIOC：控制反转，把创建对象过程交给Spring进行管理AOP：面向切面......
hadoop fs:du统计hdfs文件（目录下文件）大小的用法
[root@node218~]#hadoopfs-du-h/inventory5g8.0G8.0G/inventory5g/inventory.dat261.2M261.2M/inventory5g/inventory_1_30.dat261.6M261......
第七阶段：企业框架实战
认清现实，放弃幻想。(特此感谢动力节点老杜分享出来的学习路线)7.第七阶段：企业框架实战7.1Linux/Centos7.1.1学习目标1.掌握Centos系统常用命令2.掌握......

Hadoop中的MapReduce框架

相关文章

赞助商

阅读排行