首页 > 其他分享 >MapReduce工作原理

MapReduce工作原理

时间:2023-07-24 17:45:56浏览次数:31  
标签:Map 数据 reduce MapReduce mapreduce 工作 原理 过程

MapReduce

理解什么是map,什么是reduce,为什么叫mapreduce

Map

Map:是一种映射过程,具体来说把一组数据按照某种Map函数映射成新的数据。也就是说,map主要是:映射、变换、过滤的过程。一条数据进入map会被处理成多条数据,也就是1进N出。

Reduce

Reduce:是一种归纳过程,具体来说把若干组映射结果进行汇总并输出。也就是说,reduce主要是:分解、缩小、归纳的过程。一组数据进入reduce会被归纳为一组数据(或者多组数据),也就是一组进N组出。

MapReduce

MapReduce:是将Map过程和Reduce过程链接起来。

输入数据集—map—>中间结果数据集—reduce—>最终结果数据集

在mapreduce的过程中,想要实现复杂的操作,就要多个类似上图的计算串联成为一个复杂计算过程,得到想要的结果,因为mapreduce过程更关心的是方法(过程的实现),并没有给出API层面的数据集的概念。因此可以理解为,mapreduce过程是整个计算框架的基本运算单位。

标签:Map,数据,reduce,MapReduce,mapreduce,工作,原理,过程
From: https://www.cnblogs.com/xiaohaigegede/p/17577877.html

相关文章

  • 分布式开放消息系统(RocketMQ)的原理与实践
    备注:1.如果您此前未接触过RocketMQ,请先阅读附录部分,以便了解RocketMQ的整体架构和相关术语2.文中的MQServer与Broker表示同一概念分布式消息系统作为实现分布式系统可扩展、可伸缩性的关键组件,需要具有高吞吐量、高可用等特点。而谈到消息系统的设计,就回避不了两个问题:消息的顺序问......
  • 不坑盒子:office办公助手,提高办公效率,告别繁琐的工作。
    不坑盒子:office办公助手,提高办公效率,告别繁琐的工作。很多朋友在工作过程中需要对Word/Excel/PPT进行编辑处理,提高办公效率告别无用功。下面给家人们介绍一款非常好用的插件工具,此工具能实现快速排版操作,还支持仿手写功能,简单实用。下面主要给大家介绍新增的PPT/Excel功能操作,......
  • C#中TransactionScope的使用方法和原理
    在C#中,TransactionScope类提供了一种简便的方式来执行事务操作。使用TransactionScope可以将多个数据库操作封装在一个事务中,从而确保这些操作要么全部成功提交,要么全部回滚。下面是TransactionScope的基本使用方法和原理解释:引入System.Transactions命名空间:在使用Transaction......
  • Kubernetes业务服务日志采集原理全方位剖析
    Kubernetes日志采集原理全方位剖析   简介作为容器编排领域的实施标准,Kubernetes(K8s)应用的场景也越来越广。日志作为可观测性建设中的重要一环,可以记录详细的访问请求以及错误信息,非常利于问题的定位。Kubernetes上的应用、Kubernetes组件本身、宿主机等都会产......
  • 图形工作站电脑配置推荐
    对于很多人来说,电脑一般就是用来简单办公,玩游戏,影音娱乐等。但是市面上基于对一些特殊行业的高层次需求,也有一种高配置的电脑叫做工作站。一、图形工作站和普通电脑的区别图形工作站,是为某种特殊作业目的制作出来的专业级别的电脑。它能做的事情太多了,可以用于气候分析、石油勘......
  • Golang 规则引擎原理及实战
    本文主要介绍规则引擎在golang中的使用,将首先介绍golang中主要的规则引擎框架,然后利用golang原生的parser搭建一个简单的规则引擎实现基本的bool表达式解析工作。背景随着业务代码的不断迭代,诞生出了越来越多的if-else,并且if-else中的逻辑越来越复杂,导致代码逻辑复......
  • 工作流学习,工作流定义工具部分(未整理)
    工作流定义工具需求分析工作流分类:管理型、设定型、协作型、生产型。以通讯为中心、以文档为中心、以过程为中心、基于文件、基于消息、基于web。工作流模型包括了描述一个能够由工作流执行服务软件系统执行的过程所需的所有信息。这些信息包括:过程的开始、完成条件,构成过程的......
  • 详解TCP网络协议栈的工作原理
    本文分享自华为云社区《网络通信的神奇之旅:解密LinuxTCP网络协议栈的工作原理》,作者:LionLong。一、TCP网络开发APITCP,全称传输控制协议(TransmissionControlProtocol),是一种面向连接的、可靠的、基于字节流的传输层通信协议。1.1、TCP服务器调用的API#include<sys/types......
  • 如何从 Fedora 37 工作站升级到 Fedora 38(GUI 和 CLI)
    导读使用GUI和CLI方法从Fedora37工作站版升级到Fedora38的完整步骤。Fedora38已发布,没有任何延误。此版本带来了令人惊叹的GNOME44工作站版桌面、KDEPlasma5.27(最后一个Plasma5系列)等。你可以在此页面上阅读我写的Fedora38功能指南。如果你尝......
  • [爬虫]1.1.2 网络爬虫的工作原理
    网络爬虫(WebCrawler),也被称为网页蜘蛛(Spider),是一种用来自动浏览互联网的网络机器人。其主要目标通常是为搜索引擎创建复制的网页内容,但它们也可以被用于其他目的,比如数据挖掘。现在,我们一起来深入理解一下网络爬虫的工作原理。整个过程可以被大致分为四个步骤:发送HTTP请求从服......