首页 > 其他分享 >mapreduce

mapreduce

时间:2023-05-15 23:11:46浏览次数:37  
标签:Map Reduce mapreduce MapReduce 键值 视频文件 数据

 MapReduce是一种分布式计算模型,用于处理大规模数据集的并行计算。它是由Google首先提出,并在Apache Hadoop项目中得到广泛实现和应用的

MapReduce模型的优势在于它的可扩展性和容错性。它可以在大规模的计算集群上并行处理数据,提供高性能和高可靠性。

MapReduce适用于各种数据处理任务,包括数据清洗、数据聚合、数据分析和机器学习等。

在MapReduce模型中,原始数据被映射为一系列键值对(key-value pairs)。键值对是一种数据结构,由一个唯一的键(key)和与之关联的值(value)组成。

键(key)是用于标识数据的唯一标识符,它可以是任何数据类型,例如整数、字符串等。

值(value)是与键相关联的数据,它可以是任何数据类型,例如字符串、数字、对象等。

键值对的内容取决于具体的应用场景和数据处理需求。在Map阶段,原始数据被解析和转换为键值对,其中键用于分类或分组数据,值用于描述数据的具体内容。例如,在Word Count(词频统计)任务中,原始数据可以是一段文本,键可以是单词,值可以是出现的次数。

通过将数据映射为键值对,MapReduce模型可以对数据进行分布式处理和计算,从而实现并行计算的效果。每个键值对都会被发送到不同的计算节点上进行处理,并最终通过Reduce阶段的聚合操作生成最终的结果

 

案例:

是从好多视频文件中找出穆逍老师在2019年5月份的教学视频,mapreduce是怎么实现,map阶段是干什么,reduce阶段是干什么

  1. Map阶段:

    • 输入:视频文件集合。
    • Map函数:解析每个视频文件,提取视频的元数据,包括视频名称、上传时间等。
    • Map输出:键值对,其中键为视频的元数据,值为视频文件本身。
  2. Reduce阶段:

    • 输入:Map阶段输出的键值对。
    • Reduce函数:筛选出符合条件的视频文件,即穆逍老师在2019年5月份上传的教学视频。
    • Reduce输出:符合条件的视频文件列表

标签:Map,Reduce,mapreduce,MapReduce,键值,视频文件,数据
From: https://www.cnblogs.com/mxleader/p/17403421.html

相关文章

  • 16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN
    文章目录Hadoop系列文章目录一、pom.xml与测试数据说明、日志配置1、pom.xml2、数据字段说明3、日志配置二、序列化1、需求2、实现说明3、实现1)、bean2)、Mapper3)、Reducer4)、Driver4、验证三、排序1、需求2、实现说明3、实现1)、bean2)、Mapper3)、Reducer4)、Driver4、验证四、分区1......
  • 15、MapReduce介绍及wordcount
    文章目录Hadoop系列文章目录一、mapreduce编程模型1、MapReduce介绍2、MapReduce编程规范3、序列化4、hadoop数据类型5、示例二、wordcount实现1、pom.xml2、Mapper3、Reducer4、Driver5、完整的代码(WordCount)6、Driver推荐写法7、运行结果1)、运行日志2)、运行结果三、运行环境介绍......
  • MapReduce分布式计算(三)
    JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式.JSON和Java对象的转换movie.txt{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661",......
  • MapReduce分布式计算(二)
    练习同一时间不同地区的温度求每天的最高温度2022-04-03,21.22022-04-03,18.52022-04-03,24.32022-04-03,16.52022-04-03,10.02022-04-04,28.32022-04-04,18.72022-04-04,30.02022-04-04,21.1代码实现packagecom.doit.demo04;importorg.apache.hadoop.conf.Con......
  • MapReduce分布式计算
    MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算,是目前分布式计算模型中应用较为广泛的一种。练习:计算a.txt文件中每个单词出现的次数helloworldhellohadoophello51doithadoopmapreducemapreducespark......
  • Mapreduce二次排序时,将jar包上传至Hadoop上运行时,抛出异常"java.util.NoSuchElementEx
    查询原因后发现是java中实现实现Mapper时StringTokenizer类时使用了一个方法nextToken()会抛出这个异常,”我们可以使用hasMoreTokens()和hasMoreElements()方法来避免异常。如果标记器的字符串中有更多标记可用,则这两种方法都返回true。只有当hasMoreTokens()方法返回Tr......
  • mapreduce测试时出现INFO client.RMProxy: Connecting to ResourceManager at 0.0.0.0
    如运行wordcount后出现INFOclient.RMProxy:ConnectingtoResourceManagerat0.0.0.0:8032长时间不动,我尝试修改我的yarn-site.xml配置后可以成功运行  <property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value>  </pr......
  • MapReduce原理
         MapReduce运行流程  MapReduce容错机制 ......
  • hiveSQL mapreduce任务调优
    sethive.merge.mapredfiles=true;--在Map-Reduce的任务结束时合并小文件setmapred.max.split.size=30000000;--决定每个map处理的最大的文件大小,单位为B--setmapred.min.split.size=10000000;--公司集群默认值--setmapred.min.split.size.per.node=;......
  • Hadoop的生态体系,HDFS和MapReduce等的具体介绍
    Hadoop的两大核心就是HDFS和MapReduce,而整个Hadoop的体系结构主要是通过HDFS的分布式存储作为底层数据支持的。并且会通过MapReduce来进行计算分析。Hadoop1.x的核心:HadoopCommonHadoopDistributedFileSystem(HDFS)HadoopMapReduceHadoop2.x的核心:HadoopCommonHadoopDistribu......