Hadoop（十四）MapReduce概述

时间：2024-09-18 14:49:15浏览次数：9

标签：Mapper 程序 Hadoop MapReduce 概述阶段 KV

一、定义

MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架
MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上

二、优缺点

优点	描述
易于编程	它简单的实现一些接口，就可以完成一个分布式程序，也就是写一个分布式程序，跟写一个简单的串行程序是一模一样的
良好的扩展性	当计算资源不能得到满足的时候，可以通过简单的增加机器来扩展它的计算能力
高容错性	比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的
适合PB级以上海量数据的离线处理	可以实现上千台服务器集群并发工作，提供数据处理能力

缺点	描述
不擅长实时计算	MapReduce无法像MySQL一样，在毫秒或者秒级内返回结果
不擅长流式计算	流式计算的输入数据是动态的，而MapReduce的输入数据集是静态的，不能动态变化，这是因为MapReduce自身的设计特点决定了数据源必须是静态的
不擅长DAG（有向无环图）计算	多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下

三、MapReduce核心思想

1、MapReduce运算程序一般需要分成2个阶段：Map阶段和Reduce阶段
2、Map阶段的并发MapTask，完全并行运行，互不相干
3、Reduce阶段的并发ReduceTask，完全互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出
4、MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行

四、MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程：

MrAppMaster：负责整个程序的过程调度及状态协调
MapTask：负责Map阶段的整个数据处理流程
ReduceTask：负责Reduce阶段的整个数据处理流程

五、常用数据序列化类型

Java类型	Hadoop Writable 类型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
Null	NullWritable

六、MapReduce编程规范

用户编写的程序分成三个部分：Mapper、Reducer和Driver
1、Mapper阶段

用户自定义的Mapper要继承自己的父类
Mapper的输入数据是KV对的形式（KV的类型可自定义）
Mapper中的业务逻辑写在map()方法中
Mapper的输出数据是KV对的形式（KV的类型可自定义）
map()方法（MapTask进程）对每一个<K,V>调用一次

2、Reducer阶段

Reducer的输入数据类型对应Mapper的输出数据类型，也是KV
Reducer的业务逻辑写在reduce()方法中
ReduceTask进程对每一组相同k的<k,v>组调用一次reduce()方法

3、Driver阶段
相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象

标签：Mapper,程序,Hadoop,MapReduce,概述,阶段,KV
From： https://www.cnblogs.com/shihongpin/p/18418480

Hadoop（十三）DataNode
一、DataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳2、DataNode启动后向NameNode注册，通过后，周期性（6小时）的向NameNode上报所有的块信息3、心跳是每3秒一次，心跳返回结果带有......
Hadoop（十二）NameNode 和 SecondaryNameNode
一、NN和2NN工作机制1、NameNode中的元数据存储在哪里？存储在NameNode节点的磁盘中会导致效率过低，因为经常需要进行随机访问和响应客户请求；存储在内存中，一旦元数据丢失，整个集群就无法工作，也不合适。因此产生了在磁盘中备份元数据的FsImage。引入Edits文件（只进行追加操作，效率很......
Hadoop（十一）HDFS 读写数据流程
HDFS读写数据流程一、写数据流程1、客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在2、NameNode返回是否可以上传3、客户端请求第一个Block上传到哪几个DataNode服务器上4、NameNode返回3个DataNode节点，分别为dn1......
内网隧道代理技术-概述
隧道描述攻击者通过边界主机进入内网，往往会利用它当跳板进行横向渗透，但现在的内部网络大多部署了很多安全设备，网络结构错综复杂，对于某些系统的访问会受到各种阻挠，这就需要借助代理去突破这些限制，因此面对不同的网络环境对于代理的选择及使用显得格外重要。隧道的分类关于隧......
计算机毕业设计Python深度学习水文预测水文可视化水文爬虫洪水自然灾害预测水文数
多数据源水文数据获取技术与应用分析摘要随着信息技术的不断发展，水文数据获取和分析成为了现代水文学研究的重要内容。多数据源水文数据获取技术与应用分析系统为我们提供了一种新的水文数据处理和分析方式。该系统利用爬虫技术获取长江水文网的数据，采用 Python ......
计算机毕业设计Flink+Hadoop广告推荐系统广告预测广告数据分析可视化广告爬虫大数
《Flink+Hadoop广告推荐系统》开题报告一、项目背景与意义随着互联网技术的飞速发展和数据量的爆炸性增长，广告推荐系统已成为互联网企业提升用户体验和增加收益的重要手段。传统的广告推荐系统往往面临计算效率低、实时性差、推荐精度不足等问题，难以满足当前复杂多变的业务需......
XXE-XML实体注入漏洞概述
XXE-"xmlexternalentityinjection"既"xml外部实体注入漏洞"。概括一下就是"攻击者通过向服务器注入指定的xml实体内容,从而让服务器按照指定的配置进行执行,导致问题"也就是说服务端接收和解析了来自用户端的xml数据,而又没有做严格的安全控制,从而导致xml外部实体注入......
【背时咯】简单记录一下大数据技术的核心组件，包括Hadoop、Spark、Kafka等，并说明它们在
大数据技术的核心组件包括Hadoop、Spark、Kafka等，它们在大数据生态系统中扮演着不可或缺的角色。以下是对这些核心组件的详细解释及它们在大数据生态系统中的作用：Hadoop核心组件：Hadoop分布式文件系统(HDFS)：提供高可靠性的数据存储能力，能够将大规模的数据集分布式存储在多......
【计算机毕设-大数据方向】基于Hadoop的在线教育平台数据分析可视化系统的设计与实现
......
hadoop中小文件问题的解决方案
鱼弦：公众号：红尘灯塔，CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主) 、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）Hadoop小文件问题解决方案Hadoop小文件问题是指在Hadoop中存储大量小文件时，会降低Hadoop的性能和效率。这是......