首页 > 其他分享 >MapReduce简述

MapReduce简述

时间:2024-07-14 20:30:59浏览次数:7  
标签:DAG 计算 批处理 MapReduce 落盘 简述 IO

概念

  • 面向批处理的分布式计算框架;
  • 一种编程模型,分为Map(映射)和Reduce(化简)阶段

核心思想

  • 分而治之,并行计算;
  • 移动计算而非移动数据

特点

  • 计算跟着数据走
  • 良好的扩展性(计算能力随着节点数增加近似线性递增)
  • 高容错
  • 适合海量数据的离线批处理
  • 降低了分布式编程的门槛

不适合的场景

  • 流计算(输入数据集是动态的,MapReduce是静态的)
  • OLAP(毫秒或秒级别返回结果)
  • DAG计算

-多个作业存在依赖关系,后一个的输入是前一个的输出,构成有向无环图DAG

-每个MapReduce作业的输出结果都会落盘,造成大量的磁盘IO,导致性能非常低下

缺点

慢,大量的落盘和读盘操作,IO频繁,大量的网络传输

原理

作业提交原理

 B站有博主总结挺好,就直接备份了

标签:DAG,计算,批处理,MapReduce,落盘,简述,IO
From: https://www.cnblogs.com/yb38156/p/18301966

相关文章

  • C#面:简述什么是中间件(Middleware)?
    中间件是组装到应⽤程序管道中以处理请求和响应的软件。每个组件:选择是否将请求传递给管道中的下⼀个组件。可以在调⽤管道中的下⼀个组件之前和之后执⾏⼯作。请求委托(Requestdelegates)⽤于构建请求管道,处理每个HTTP请求。请求委托使⽤Run,Map和Use扩展⽅法进⾏配置。单......
  • 简述 JS 中对象的创建和拷贝
    在JavaScript中,对象是一种非常重要且灵活的数据结构,用于存储多个值(属性)和方法(函数)对象的创建和拷贝是日常开发中经常涉及的操作,对于业务逻辑的准确实现有着重要的作用本文将简要概括JavaScript中对象的创建和拷贝方式,都是一些非常基础的知识,大家看个乐就好~目录对象的作......
  • Java面试八股之MySQL主从复制机制简述
    MySQL主从复制机制简述MySQL的主从复制机制是一种数据复制方案,用于在多个服务器之间同步数据。此机制允许从一个服务器(主服务器)到一个或多个其他服务器(从服务器)进行数据的复制,从而增强数据冗余、提高读取性能,并且为灾难恢复提供保障。以下是MySQL主从复制机制的简要概述:复制......
  • (必看图文)Hadoop集群安装及MapReduce应用(手把手详解版)
    前言    随着大数据时代的到来,处理和分析海量数据已成为企业和科研机构不可或缺的能力。Hadoop,作为开源的分布式计算平台,因其强大的数据处理能力和良好的可扩展性,成为大数据处理领域的佼佼者。本图文教程旨在帮助读者理解Hadoop集群的安装过程,并通过MapReduce应用实例,......
  • 01 | 为什么MapReduce会被硅谷一线公司淘汰?
    今天我要与你分享的主题是“为什么MapReduce会被硅谷一线公司淘汰”。我有幸几次与来Google参观的同行进行交流,当谈起数据处理技术时,他们总是试图打探MapReduce方面的经验。这一点让我颇感惊讶,因为在硅谷,早已没有人去谈论MapReduce了。今天这一讲,我们就来聊聊为什么......
  • hadoop集群部署【二】YARN & MapReduce 的部署
    提前注意:请注意路径是否和我的相同,放置的位置不同,请修改标红处 HDFS部署HDFS介绍及部署http://t.csdnimg.cn/Q3H3Y部署说明HadoopHDFS分布式文件系统,我们会启动:NameNode进程作为管理节点DataNode进程作为工作节点SecondaryNamenode作为辅助同理,HadoopYARN分布式资源......
  • YARN & MapReduce 介绍
    MapReduce是基于YARN运行的,即没有YARN”无法”运行MapReduce程序(并不是完全但是看作是这样的)导入 分布式计算概述 分布式计算概述http://t.csdnimg.cn/LOW1p MapReduce概述MapReduce概述http://t.csdnimg.cn/WwMB8YARN概述 分布式资源调度-YARN  资源调度 ......
  • Redis的键与值简述
     键值对分别是啥子?Redis键值对均为对象键——字符串对象值——各种对象——及其底层编码    值:可以是字符串、列表、哈希、集合、有序集合对象。五者之一。底层数据结构该图是值——各对象——底层数据结构。值的底层数据结构对应值--五对象之一 ==> ......
  • [本科项目实训] ChatGLM3 与 ChatGLM4 简述
    ChatGLM3-6B简述ChatGLM3-6B是ChatGLM系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B引入了如下特性:更强大的基础模型:ChatGLM3-6B的基础模型ChatGLM3-6B-Base采用了更多样的训练数据、更充分的训练步数和更合理的......
  • MapReduce和YARN
    一:MapReduce概述MapReduce是hadoop三大组件之一,是分布式计算组件Map阶段:将数据拆分到不同的服务器后执行Maptask任务,得到一个中间结果Reduce阶段:将Maptask执行的结果进行汇总,按照Reducetask的计算规则获得一个唯一的结果我们在MapReduce计算框架的使用过程......