MapReduce流程

时间：2024-05-15 17:08:21浏览次数：16

标签：map 文件流程 reduce MapReduce 拉取缓冲区

MapReduce流程

将文件上传到HDFS中，默认每128M切分为一个block块，

MapReduce会对数据进行逻辑上的切片（split），并不是实际上的切分，默认与block块的大小一致为128M，

根据split切分产生map任务，切片越多产生的map任务就越多，map默认每次读取一行数据，map阶段产生的数据会进入环形缓冲区中（基于内存设计的一种数据结构，大小默认为100M），

map根据reduce的数量（默认数量为1）以及数据本身的值进行分区编号（底层与哈希值有关），然后会进行快速排序，（这里编号的作用是决定这条数据会被哪一个reduce进行拉取聚合处理）

当写入环形缓冲区的数据达到环形缓冲区的80%的时候开始向磁盘溢写一个小文件，

当环形缓冲区的写到磁盘结束之后，会创建一个新的进程将小文件进行归并排序成一个新的文件，这个文件就是map任务的结果文件，这个文件也是排序好了的

reduce会对这些map任务的结果文件进行拉取操作，拉取属于自己的结果数据，有几个map任务的结果文件就拉取几次，

拉取过后会先将分区编号去掉，然后对这些数据进行归并排序，归并完成执行reduce任务，每个reduce会生成一个结果文件，最终这些文件还是在HDFS上的

MapReduce流程

标签：map,文件,流程,reduce,MapReduce,拉取,缓冲区
From： https://www.cnblogs.com/peculiar/p/18194287

HDFS写数据微观流程
HDFS微观流程每个block块都被划分成多个大小为64k的paccket每个paccket中都有两个部分组成，一个是packetHeader，一个是packetDatapacketHeader存储一些变量值：pktlen：（packet总长度）、offsetInBlock：（记录当前packet在blocck中的位置）、seqNo：（在同一个block块中的唯一编号（序列号））la......
HDFS写数据宏观流程
HDFS写数据宏观流程客户端使用rpc通信框架向NameNode发送请求，NameNode接收并处理用户请求，同时检测用户是否拥有上传文件操作的权限。磁盘空间是否可用，路径是否存在，NameNode会针对这个文件创建一个空的Entry对象，并返回成功的状态给DFS，如果DFS接收到成功的状态，会创建FSDataOutPut......
Python基础篇（流程控制）
流程控制是程序运行的基础，流程控制决定了程序按照什么样的方式执行。条件语句条件语句一般用来判断给定的条件是否成立，根据结果来执行不同的代码，也就是说，有了条件语句，才可以根据不同的情况做不同的事，从而控制程序的流程。ifelseif条件成立，执行if内的命令；否则条件不成立，则......
流程控制语句
流程控制语句1Scanner控制台输入使用方式:导包:importjava.util.Scanner;创建变量Scanner变量名=newScanner(System.in);使用变量名.nextInt();publicstaticvoidmain(String[]args){//获取用户键盘录入的信息Scannerscanner=n......
ECU刷写流程之压缩刷写技术解析
背景在现代汽车电子技术中，ECU（电子控制单元）的软件升级是一项关键任务。为了提高数据传输的效率和安全性，压缩刷写技术应运而生。通过数据压缩传输，我们可以有效地增加带宽利用率，减少刷写工具与ECU之间的数据传输量，从而显著缩短ECU升级时间。此外，为了加强数据的安全性和保密性，......
Linux启动流程
参考链接：https://www.ruanyifeng.com/blog/2013/02/booting.htmlhttps://www.ruanyifeng.com/blog/2013/08/linux_boot_process.htmlhttps://www.runoob.com/linux/linux-system-boot.html第一阶段：计算机启动（硬件启动流程）1.BIOS（BasicInputOutputSystem基本输入输出系统）阶......
开源可视化表单服务商：提升自主研发助力流程化办公！
当前，做好流程化办公可以为企业实现提质增效的办公效果，助力企业进入数字化转型。作为开源可视化表单服务商，流辰信息坚持研发创新理念，努力提升自主研发能力，专为广大客户朋友提供集产品、框架定制、产品交付为一体的一站式服务方案。想要实现流程化办公，欢迎随时来了解低代码技术平台......
基于Python实现MapReduce
一、什么是MapReduce首先，将这个单词分解为Map、Reduce。Map阶段：在这个阶段，输入数据集被分割成小块，并由多个Map任务处理。每个Map任务将输入数据映射为一系列(key,value)对，并生成中间结果。Reduce阶段：在这个阶段，中间结果被重新分组和排序，以便相同key的中间结果被传递到同一个R......
shell流程控制
判断fi[root@VM-12-15-centoshome]#vitest.sh#编写如下a=100b=100iftest$[a]-eq$[b];thenecho"true";fi#执行[root@VM-12-15-centoshome]#shtest.shtrueifelse[root@VM-12-15-centoshome]#vitest.sh#编写如下a=100b=101iftest$[a]......
使用joinjs绘制流程图（八）-实战-绘制流程图+节点路径自定义
效果图代码<template><divclass="app"><divref="myholder"id="paper"></div></div></template><script>import*asjointfrom'@joint/core'import$from'jque......

MapReduce流程

MapReduce流程

相关文章

赞助商

阅读排行