MapReduce学习二之WordCount案例

时间：2023-10-04 18:33:09浏览次数：42

标签：自定义 -- Reduce WordCount MapReduce hadoop 案例键值阶段

一、案例概述

1、第一步--变成偏移量的K1，V1（这一步不需要我们自己写）

2、进入Map阶段

输出新的<K2,V2>的键值对；

3、Shuffle阶段

分区、排序、规约、分组

输出新的键值对：

4、Reduce阶段

转换为<K3,V3>的新的形式的键值对；

利用TextOutputFormat的类实现结果的输出；

二、具体实践

1、准备一个.txt文件

2、Mapper阶段

在新建的Maven项目中导入相关依赖：
hadoop-common/hadoop-hdfs/hadoop-client/hadoop-mapreduce-client-core/junit

新建一个mapper的类（可以自定义名称为：WordCountMapper），并继承于Mapper(hadoop.mapreduce)

重写里面的map方法：

具体代码如下图：

3、Reduce阶段

新建一个类（可以自定义命名为WordCountReduce），并继承于Reducer类；

重写reduce方法：

4、主类代码编写

新建一个自定义名为JobMain的类，并继承于Configured类，且实现名为Tool（hadoop.util）的接口：

在main函数里面启动job任务：

在run函数里面进行job任务的设置：

第一步--指定文件的读取和读取路径

第二步--指定Map阶段的处理方式和数据类型

第三、四、五、六步（Shuffle阶段）--采用默认方式，暂时不做处理；

第七步--指定Reduce阶段的处理方式和数据类型

第八步--设置输出类型

最后，等待任务结束：

标签：自定义,--,Reduce,WordCount,MapReduce,hadoop,案例,键值,阶段
From： https://www.cnblogs.com/liuzijin/p/17742415.html

连接SQL Server数据库（详细步骤+登录注册案例）
数据库入门～连接数据库（详细步骤+登录注册案例+简单界面）步骤一：SQLServer使用sqlserver身份验证登录，方便与编写的程序连接 <1>首先使用Windows登录进去，右键实例，点击属性，再选择安全性，将该选项卡中的服务器身份验证改为sqlserver和windows身份验证模式。点击确定 <2>此时重......
基本入门案例、视图类
flask-restful中有两个基本的类，一个是Api、一个是ResourceApi（用于构建restful风格的主类，需要将flask实例app传递给其实例化。）Resource（视图类，类似django的View，理念上和django、drf都是类似的，以请求方式名作为每个视图函数入口），Resource视图类默认返回Content-type为application/j......
大数据分析的实际应用：案例研究
随着信息技术的快速发展，大数据分析已经成为各行各业的关键驱动力。通过大数据分析，企业能够从海量数据中提取洞察，并用于决策制定、产品改进和市场营销等各个方面。本文将通过一些实际案例来探讨大数据分析的实际应用，以及如何利用代码进行这些分析。案例1：零售业的销售预测在零售业，销......
MapReduce学习一
1、相关介绍--分而治之MapReduce分布在Yarn集群2、设计构思（以wordcount为例）第一步-->读取文件，读取为键值对类型，偏移量,该行的内容；第二步（Map阶段）-->转换成为另一种键值对模式，单词,1；第三步（Suffle阶段）-->转换成另一种键值对模式，单词,<有几个这个单词，便有几个1用逗号隔开>；第四步......
Zabbix调优不完全指南（共12个优化案例）
从学习搭建zabbix到完成各类监控、调优、二次开发已经过去了两年，期间通过QQ学习群、zabbix官方社区、各个技术博客整理学习了不少关于各种报错的处理方法，现在将常见的一些报错处理方法整理出来分享给大家。现在开始介绍常见报错处理方法：问题一、Zabbixserver内存溢出，无法启动......
金融量化项目案例 -- 双均线策略制定
博客地址：https://www.cnblogs.com/zylyehuo/开发环境anaconda集成环境：集成好了数据分析和机器学习中所需要的全部环境安装目录不可以有中文和特殊符号jupyteranaconda提供的一个基于浏览器的可视化开发工具使用tushare包获取某股票的历史行情数据!pipinstall-......
金融量化项目案例 -- 股票分析
博客地址：https://www.cnblogs.com/zylyehuo/股票分析使用tushare包获取某股票的历史行情数据。输出该股票所有收盘比开盘上涨3%以上的日期。输出该股票所有开盘比前日收盘跌幅超过2%的日期。tushare财经数据接口包!pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn......
MapReduce和Spark读取HBase快照表
1.概述随着大数据技术的不断发展，处理海量数据的需求变得愈发迫切。MapReduce作为一种分布式计算模型，为处理大规模数据提供了有效的解决方案。在这篇博客中，我们将探讨如何使用MapReduce框架读取快照表（SnapshotTable）的数据。快照表是一种记录某一时刻系统状态的表格，通过MapReduce......
找到多选题答案中缺失的错误选项，一个有趣且实用的案例！
1职场实例小伙伴们大家好，今天我们来解决一个群里的朋友提出的一个有趣且很有实用性的职场问题：如何根据多选题答案，将缺失的错误选项显示出来？这个问题给小编的第一感觉就是基础性强且思路性强，很有解决它的欲望，没想到通过简单的几个步骤竟然实现了。如下图所示：是一张问题以及答案表，每......
编写循环小案例
打印等腰三角形第1次推导publicclasstest9{publicstaticvoidmain(String[]args){//行数inta=3;System.out.println();System.out.print("");System.out.print("");System.out.print(&q......