首页 > 其他分享 >Hadoop二十五

Hadoop二十五

时间:2022-09-01 09:58:06浏览次数:47  
标签:Map Reduce Hadoop MapReduce 单词 阶段 二十五

MapReduce  

  定义:MapReduce是一个分布式运算程序的编程框架,是由用户开发"基于Hadoop的数据分析应用"的核心框架。  

  功能:核心功能是将用户编写的业务逻辑代码和自带默认组件整和成一个完整的分布式运算程序,并发布运行在一个Hadoop集群上。

  MapReduce:自己处理相关业务代码+自身的默认代码

    优点:

        1、易于编程

        2、良好拓展性

        3、高容错性

        4、适合海量数据计算(TB/PB)

    缺点:

        1、不擅长实时计算。 mysql

        2、不擅长流式计算。 Sparkstreaming flink

        3、不擅长DAG有向无环图计算。spark

  例:统计单词运算步骤:

      1、MapReduce运算程序一般需要分为2个阶段:Map阶段和Reduce阶段

      2、Map阶段的并发Map Task,完全并行运行,互不相干。

        1)、按行读数据

        2)、按空格切分行内单词

        3)、KV键值对

        4)、将所有的KV键值对中的单词,按照单词的首字母,分成2个分区溢写到磁盘

      3、Reduce阶段的并发Reduce Task,完全互不相干,但是他们的数据依赖于上一个阶段所有Map Task并发实例的输出

      4、Map Reduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运                        行

      

标签:Map,Reduce,Hadoop,MapReduce,单词,阶段,二十五
From: https://www.cnblogs.com/zhaolei0419/p/16645439.html

相关文章

  • Hadoop-yarn学习
    一、常用命令1.yarnapplication-list列出所有Application2.yarnapplication-list-appStates状态(ALL,NEW,NEW_SAVING,SUBMITTED,ACCEPTED,RUNNING,FINISHED,FAILED......
  • 大数据分析常用组件、框架、架构介绍(Hadoop、Spark、Storm、Flume、Kafka、Logstash、
    首先,数据传输组件:①Kafka是用Scala编写的分布式消息处理平台。②Logstash是用JRuby编写的一种分布式日志收集框架。③Flume是用Java编写的分布式实时日志收集框架。......
  • Hadoop-MapReducer学习
    一、InputFormat1.默认的是TextInputFormat,key偏移量,value一行内容。2.处理小文件CombineTextInputFormat把多个文件合并到一起统一切片。二、Mappersetup()初始化;map(......
  • Hadoop优化
    天气案例随机生成温度代码;并写入到文件中需求:求每年2月份的最高温度packageutils;importjava.io.BufferedWriter;importjava.io.FileWriter;importjava.io.IO......
  • hadoop小结
    Hadoop是一个适合海量数据的分布式存储和分布式计算的平台主要有以下功能:HadoopCommon:基础型功能HadoopDistributedFileSystem(HDFS™):一种分布式文件系统,可提供对......
  • hadoop配置的几个小问题
    1.ssh免密登陆配置也要给本机进行配置,否则后续会出现问题。2.hadoop配置文件中需要看好value值的最后不能有空格。在hdfs-site.xml中,登陆网址是否自己进行了配置。 ......
  • hadoop
    YARNhttps://baijiahao.baidu.com/s?id=1697462995678594984&wfr=spider&for=pcResourceManager:资源分配调度NodeManager:一个机器node上的管理ApplicationMaster:一个......
  • HCIA学习笔记二十五:三层交换机实现VLAN间路由
    一、三层交换机功能模型二、三层交换机配置三、三层交换机实现VLAN间路由实验 1)分别在交换机中拖出1台S5700、终端中拖出2台PC机,然后选择设备连线,点击Copper进行设备......
  • hadoop
    Mapper任务的执行过程每个Mapper任务是一个java进程,它会读取HDFS中的文件,解析成很多的键值对,经过我们覆盖的map方法处理后,转换为很多的键值对再输出把Mapper任......
  • 胡说hadoop
    想起名字为“hadoop保姆即教程”的,想了想自己不能误人子弟,还是算了。。。。马上要开学了,没敢忘记我们还有暑假任务:学习hadoop并记录学习笔记。为了证明我hadoop入门了,就......