首页 > 其他分享 >图解mapreduce原理和执行过程

图解mapreduce原理和执行过程

时间:2022-10-30 18:35:43浏览次数:38  
标签:map reduce mapreduce 键值 key 原理 图解 节点


说明:

下面的南京大学计算机系黄宜华老师开设的mapreduce课程的课件,这里稍作整理和 总结。

本文旨在对接触了mapreduce之后,但是对mapreduce的工作流程仍不是很清楚的人员,当然包括博主自己,希望与大家一起学习。

mapreduce的原理

MapReduce借鉴了函数式程序设计语言Lisp中的思想,Lisp(List processing)是一种列表处理语言,可对列表元素进行整体处理。

如:(add #(1 2 3 4) #(4 3 2 1))   将产生结果:#(5 5 5 5)

mapreduce之所以和lisp类似,是因为mapreduce在最后的 reduce阶段也是以key为分组进行列的运算。

下面这幅图就是mapreduce的工作原理

1)首先文档的数据记录(如文本中的行,或数据表格中的行)是以“键值对”的形式传入map 函数,然后map函数对这些键值对进行处理(如统计词频),然后输出到中间结果。

2)在键值对进入reduce进行处理之前,必须等到所有的map函数都做完,所以既为了达到这种同步又提高运行效率,在mapreduce中间的过程引入了barrier(同步障)

在负责同步的同时完成对map的中间结果的统计,包括 a. 对同一个map节点的相同key的value值进行合并b. 之后将来自不同map的具有相同的key的键值对送到同一个reduce进行处理

3)在reduce阶段,每个reduce节点得到的是从所有map节点传过来的具有相同的key的键值对。reduce节点对这些键值进行合并。

图解mapreduce原理和执行过程_hadoop

以词频统计为例。

词频统计就是统计一个单词在所有文本中出现的次数,在hadoop中的事例程序就是wordcount,俗称hadoop编程的"hello world".

因为我们有多个文本,所以可以并行的统计每个文本中单词出现的个数,然后最后进行合计。

所以这个可以很好地体现map,reduce的过程。

可以发现,这张图是上面那张图的进一步细化,主要体现在:

1)Combiner 节点负责完成上面提到的将同一个map中相同的key进行合并,避免重复传输,从而减少传输中的通信开销。

2)Partitioner节点负责将map产生的中间结果进行划分,确保相同的key到达同一个value.

图解mapreduce原理和执行过程_mapreduce_02




标签:map,reduce,mapreduce,键值,key,原理,图解,节点
From: https://blog.51cto.com/xichenguan/5807696

相关文章

  • Mapreduce中Combiner的使用及误区
    问题提出: 众所周知,Hadoop框架使用Mapper将数据处理成一个<key,value>键值对,再网络节点间对其进行整理(shuffle),然后使用Reducer处理数据并进行最终输出。  在上述过程......
  • CPU 的工作原理是什么?
    ​​CPU的工作原理是什么?​​​​你管这破玩意叫CPU?​​​​你管这破玩意叫编程语言?​​......
  • 图解JS事件对象screenX、clientX、pageX, offsetX区别
    screenX、clientX、pageX和offsetX的区别1、screenX和screenY参照点:电脑屏幕左上角screenX:鼠标点击位置相对于电脑屏幕左上角的水平偏移量screenY:鼠标点击位置相对......
  • 「MySQL高级篇」MySQL日志、事务原理 -- undolog、redolog、binlog、两阶段提交
    引言日志日志,在我们平时开发中主要的用途在于监控、备份,但在MySQL中,日志的功能远远不止这些,分别有用于记录的慢查询日志,回滚版本的undolog,宕机恢复的redolog、全量备份的bin......
  • Nacos注册中心2-核心原理和Client核心类
    1\.核心原理1.1系统架构服务(Service)服务是指一个或一组软件功能(例如特定信息的检索或一组操作的执行),其目的是不同的客户端可以为不同的目的重用(例如通过跨进程的网络调......
  • HCIA-ICT实战基础04-DHCP原理与配置
    HCIA-ICT实战基础-DHCP原理与配置目录DHCP产生背景DHCP工作原理与配置DHCPRelay工作原理与配置1DHCP产生背景1.1手工配置网络参数存在一下问题:灵活性差容易出......
  • HCIA-ICT实战基础08-访问控制列表ACL原理与配置
    HCIA-ICT实战基础-访问控制列表ACL原理与配置目录ACL技术概述ACL的基本概念及其工作原理ACL的基础配置及应用ACL技术概述技术背景:需要一个工具实现流量过滤ACL是......
  • 这样讲Redis Cluster的工作原理,或许你真的能听懂~
    什么是Redis集群?Redis从3.0开始就支持集群,节点之间使用gossip协议进行通信,实现了去中心化,集群中支持动态的添加和删除节点,动态迁移数据以及自动执行故障转移。什么是数据Sh......
  • 这样讲Redis哨兵机制Sentinel的工作原理,或许你真的能听懂~
    什么是哨兵机制?Sentinel是Redis官方提出的一个高可用解决方案。它由一个或多个sentinel实例构成sentinel系统。为什么要用哨兵机制?我们都知道Redis具备主从复制的功能,......
  • 浏览器渲染和原理
    一、浏览器的渲染过程注意:这个过程是逐步完成的,为了更好的用户体验,渲染引擎将会尽可能早的将内容呈现到屏幕上,并不会等到所有的html都解析完成之后再去构建和布局r......