首页 > 其他分享 >hadoop

hadoop

时间:2022-08-27 22:45:05浏览次数:43  
标签:Mapper 输出 Reducer reduce hadoop 任务 键值

Mapper任务的执行过程
每个 Mapper 任务是一个 java 进程,它会读取 HDFS 中的文件,解析成很多的键值对,经过我们覆盖的 map 方法处理后, 转换为很多的键值对再输出
把 Mapper 任务的运行过程分为六个阶段。
第一阶段是把输入文件按照一定的标准分片(InputSplit),每个输入片的大小是固定的。
第二阶段是对输入片中的记录按照一定的规则解析成键值对。
第三阶段是调用 Mapper 类中的 map 方法。
第四阶段是按照一定的规则对第三阶段输出的键值对进行分区。
第五阶段是对每个分区中的键值对进行排序。
第六阶段是对数据进行归约处理,也就是 reduce 处理。键相等的键值对会调用一次reduce 方法。经过这一阶段,数据量会减少。归约后的数据输出到本地的 linxu 文件中。

Reducer任务的执行过程
每个 Reducer 任务是一个 java 进程。Reducer 任务接收 Mapper 任务的输出,归约处理后写入到 HDFS 中。
可以分为3个阶段
第一阶段是 Reducer 任务会主动从 Mapper 任务复制其输出的键值对。 Mapper 任务可能会有很多,因此 Reducer 会复制多个 Mapper 的输出。
第二阶段是把复制到 Reducer 本地数据,全部进行合并,即把分散的数据合并成一个大的数据。再对合并后的数据排序。
第三阶段是对排序后的键值对调用 reduce 方法。 键相等的键值对调用一次 reduce 方法,每次调用会产生零个或者多个键值对。最后把这些输出的键值对写入到 HDFS 文件中。
在整个 MapReduce 程序的开发过程中,我们最大的工作量是覆盖 map 函数和覆盖reduce 函数。

标签:Mapper,输出,Reducer,reduce,hadoop,任务,键值
From: https://www.cnblogs.com/EthanCYK/p/16631694.html

相关文章

  • 胡说hadoop
    想起名字为“hadoop保姆即教程”的,想了想自己不能误人子弟,还是算了。。。。马上要开学了,没敢忘记我们还有暑假任务:学习hadoop并记录学习笔记。为了证明我hadoop入门了,就......
  • hadoop-day1-切分文件
    java模拟切分文件packagecom.shujia;importjava.io.*;importjava.util.ArrayList;publicclassSplitFileBlock{publicstaticvoidmain(String[]args)......
  • 搭建hadoop高可用集群
    一、搭建高可用集群1.1zookeeper搭建1、上传安装包到master并解压tar-xvfzookeeper-3.4.6.tar.gz2、配置环境变量vim/etc/profileexportZOOKEEPER_HOME=/usr/......
  • hadoop day2-内容理解
    进程理解HDFS相关(NN,DN,SSN)NameNode(NN)功能:1、接受客户端的读/写服务因为NameNode知道数据文件与DataNode的对应关系2、保存文件的时候会保存文件的元数据信息a......
  • hadoop -day4 安装zookeeper和HA高可用
    安装zookeeper1、上传安装包到master并解压(在/usr/local/soft/目录下) tar-zxvfzookeeper-3.4.6.tar.gz2、配置环境变量 vim/etc/profile ZOOKEEPER_HOME=/usr/local/......
  • hadoop集群搭建之测试集群,配置历史服务器,日志聚集,时间同步
    hadoop集群搭建之测试集群,配置历史服务器,日志聚集,时间同步前期概要:我们完全分布式集群已经搭建完毕,并且还写了群启/群关的脚本,接下来有必要来测试一遍集群,我们可以使用官......
  • hadoop day3-java实现hdfs
    如何用javaApi的方式来操作hdfs 新建maven项目,然后建立一个子工程在父工程中引入依赖(maven中hadoophdfs,hadoopcommon和hadoopclient) <!--https://mvnrepository......
  • Hadoop的由来、Block切分、进程详解
    Hadoop的由来、Block切分、进程详解一、hadoop的由来Google发布了三篇论文:GFS(GoogleFileSystem)MapReduce(数据计算方法)BigTable:HbaseDougcutting花费了两......
  • hadoop简介
    一句话简述:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。Hadoop的由来Google爬取全球的网站,然后计算页面的PageRank要解决网站的问题:a:这些网站怎么存......
  • Hadoop 二十三
    文件的更名和移动:    获取文件详细信息       遇到的问题:不能直接在web上上传文件。   权限问题:修改后即可正常创建  参考:https:/......