首页 > 其他分享 >33

33

时间:2025-01-06 23:58:37浏览次数:1  
标签:文件 HDFS 33 hadoop input txt 输入

实验5

MapReduce初级编程实践

 

1.实验目的

(1)通过实验掌握基本的MapReduce编程方法;

(2)掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。

2.实验平台

(1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)

(2)Hadoop版本:3.1.3

3.实验步骤

(一)编程实现文件合并和去重操作

对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。下面是输入文件和输出文件的一个样例供参考。

输入文件A的样例如下:

 

20170101     x

20170102     y

20170103     x

20170104     y

20170105     z

20170106     x

 

输入文件B的样例如下:

20170101      y

20170102      y

20170103      x

20170104      z

20170105      y

 

根据输入文件A和B合并得到的输出文件C的样例如下:

20170101      x

20170101      y

20170102      y

20170103      x

20170104      y

20170104      z

20170105      y

20170105      z

20170106      x

1.启动 hadoop:

 

2. 需要首先删除HDFS中与当前Linux用户hadoop对应的input和output目录(即HDFS中的“/opt/module/hadoop-3.1.3/input”和“/opt/module/hadoop-3.1.3/output”目录),这样确保后面程序运行不会出现问题

 

3.再在HDFS中新建与当前Linux用户hadoop对应的input目录,即“/opt/module/hadoop-3.1.3/input”目录

 

4.将A,B上传到HDFS中

 

5. 运行结果

 

(二)编写程序实现对输入文件的排序

现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第二个整数为原待排列的整数。下面是输入文件和输出文件的一个样例供参考。

输入文件1的样例如下:

33

37

12

40

 

输入文件2的样例如下:

4

16

39

5

 

输入文件3的样例如下:

1

45

25

 

根据输入文件1、2和3得到的输出文件如下:

1 1

2 4

3 5

4 12

5 16

6 25

7 33

8 37

9 39

10 40

11 45

  1. 创建1.txt ,2.txt ,3.txt,输入上述内容
    再在HDFS中新建与当前Linux用户hadoop对应的input目录,即“/opt/module/hadoop-3.1.3/input”目录2.将1.txt ,2.txt ,3.txt上传到HDFS中

3. 运行结果

 

 

(三)对给定的表格进行信息挖掘

下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。

输入文件内容如下:

child          parent

Steven        Lucy

Steven        Jack

Jone         Lucy

Jone         Jack

Lucy         Mary

Lucy         Frank

Jack         Alice

Jack         Jesse

David       Alice

David       Jesse

Philip       David

Philip       Alma

Mark       David

Mark       Alma

 

输出文件内容如下:

grandchild       grandparent

Steven          Alice

Steven          Jesse

Jone            Alice

Jone            Jesse

Steven          Mary

Steven          Frank

Jone            Mary

Jone            Frank

Philip           Alice

Philip           Jesse

Mark           Alice

Mark           Jesse

  1. 创建child.txt,输入上述内容
    再在HDFS中新建与当前Linux用户hadoop对应的input目录,即“/opt/module/hadoop-3.1.3/input”目录

 

  1. 将child.txt上传到HDFS中

 

  1. 运行结果

 

标签:文件,HDFS,33,hadoop,input,txt,输入
From: https://www.cnblogs.com/wanbeibei/p/18656542

相关文章

  • SM260331btnQD
    usingSystem;usingSalien.Utility.SUWF;usingSalien.Utility;usingClsPub;namespaceSM260331btnQD{publicclassSM260331btnQD:ISuwfBus{privateSlnSuwfPage_page;publicvoidInitial(SlnSuwfPagepage){......
  • 【完美复现】面向配电网韧性提升的移动储能预布局与动态调度策略【IEEE33节点】(Matlab
     ......
  • 【完美复现】面向配电网韧性提升的移动储能预布局与动态调度策略【IEEE33节点】(Matlab
     ......
  • leetCode 33:搜索旋转排序数组
    题目:整数数组nums按升序排列,数组中的值互不相同。在传递给函数之前,nums在预先未知的某个下标k(0<=k<nums.length)上进行了旋转,使数组变为[nums[k],nums[k+1],...,nums[n-1],nums[0],nums[1],...,nums[k-1]](下标从0开始计数)。例如,[0,1,2,4,5,6,7]在下标3......
  • STM32-笔记33-Wi-Fi遥控风扇项目
    一、项目简介        电脑通过esp8266模块远程遥控风扇。PC端的网络调试助手(以服务端的模式连接客户端的esp8266)二、项目实现复制项目文件36-编程实现ESP8266连接TCP服务器重命名为:38-wifi控制风扇项目重命名为fan加载文件main.c#include"sys.h"#includ......
  • (赠源码)基于spark大数据分析的手机商城推荐系统的设计与实现33238-计算机原创毕设项目
    摘要随着移动互联网的快速发展,手机已经成为人们生活中必不可少的日常用品。然而,在众多手机品牌和型号中选择一款适合自己的手机变得越来越困难。为了帮助消费者在海量的手机产品中做出最佳选择,手机商城推荐系统应运而生。基于大数据分析的手机商城推荐系统的设计与实现利用......
  • KTH5774 : 3D 摇杆/操纵杆霍尔位置传感器芯片,可替代mlx90333
    KTH5774是一款摇杆、操纵杆专用的3D霍尔磁感应芯片,主要面向对线性度和可靠性要求严格的应用场景。KTH5774基于3D霍尔技术,内部分别集成了X轴、Y轴和Z轴三个独立的霍尔元件,能够通过测量和处理磁通密度矢量的三个空间分量(即BX、BY和B......
  • 【练习】PAT乙1033 旧键盘打字
    题目旧键盘上坏了几个键,于是在敲一段文字的时候,对应的字符就不会出现。现在给出应该输入的一段文字、以及坏掉的那些键,打出的结果文字会是怎样?输入格式:输入在2行中分别给出坏掉的那些键、以及应该输入的文字。其中对应英文字母的坏键以大写给出;每段文字是不超过10^......
  • 重新振作第33-35天----悲伤
    还是很痛苦。数据库大作业占比太小了,不想认真做,就简简单单做了一下。然后组团完成了一下报告。移动应用开发实验4闪退。。。。。真的莫名闪退,累了。只能开始P图了。代码没报错,也能构建成功,就是打开的时候不知名闪退。汇编实验*3简单地完成了三个实验的实验报告,还没有开始进......
  • 33. 简易内存池
    1、题目描述●请实现一个简易内存池,根据请求命令完成内存分配和释放。●内存池支持两种操作命令,REQUEST和RELEASE,其格式为:●REQUEST=请求的内存大小表示请求分配指定大小内存,如果分配成功,返回分配到的内存首地址;如果内存不足,或指定的大小为0,则输出error。●RELEASE=......