首页 > 其他分享 >12.21

12.21

时间:2023-12-23 22:46:45浏览次数:35  
标签:文件 12.21 应用程序 Spark 成绩 输入 小新

 

 

 

 

 

 

实验7

Spark初级编程实践

 

1.实验目的

(1)掌握使用Spark访问本地文件和HDFS文件的方法

(2)掌握Spark应用程序的编写、编译和运行方法

2.实验平台

(1)操作系统:Ubuntu18.04(或Ubuntu16.04);

(2)Spark版本:2.4.0;

(3)Hadoop版本:3.1.3。

3.实验步骤

(1)Spark读取文件系统的数据

 

(1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数;

(2)在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;

(3)编写独立应用程序(推荐使用Scala语言),读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;通过sbt工具将整个应用程序编译打包成 JAR包,并将生成的JAR包通过 spark-submit 提交到 Spark 中运行命令。

 

(2)编写独立应用程序实现数据去重

对于两个输入文件A和B,编写Spark独立应用程序(推荐使用Scala语言),对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。

输入文件A的样例如下:

20170101    x

20170102    y

20170103    x

20170104    y

20170105    z

20170106    z

输入文件B的样例如下:

20170101    y

20170102    y

20170103    x

20170104    z

20170105    y

根据输入的文件A和B合并得到的输出文件C的样例如下:

20170101    x

20170101    y

20170102    y

20170103    x

20170104    y

20170104    z

20170105    y

20170105    z

20170106    z

(3)编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。下面是输入文件和输出文件的一个样例,供参考。

Algorithm成绩:

小明 92

小红 87

小新 82

小丽 90

Database成绩:

小明 95

小红 81

小新 89

小丽 85

Python成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下:

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

 

标签:文件,12.21,应用程序,Spark,成绩,输入,小新
From: https://www.cnblogs.com/zhaoshengfu/p/17923771.html

相关文章

  • 12.21每日报告
    今天早上考完了试设计模式 最后一题适配器模式写成了观察者还是没看清题题中说明不改变原有代码的基础上,所以不应该是观察者是给他调用猫的接口所以应该是适配器模式,将一个接口转换成用户所希望的另一个接口,将原本不兼容的类一起工作晚上做软件构造的大实验学习JFinal......
  • 12.21
    快速排序intPartition(SqListL,intlow,inthigh){L.elem[0]=L.elem[low];intpivotkey=L.elem[0];while(low<high){while(low<high&&L.elem[high]>=pivotkey)high--;L.elem[low]=L.elem[high];while(low<high&&......
  • 12.21
    我去没时间了赶紧写个闲话好像明天要跑操,我不想跑啊啊啊啊啊啊啊写了道傻逼最短路还是弗洛伊德,强过优化了一下才过,没啥好说其实今晚本来不打算来的,因为whk被化学老师D了,TA说我作业没写完让我画思维导图......
  • 12.21每日总结
    今天进行了测试软件需求与分析课堂测试十一—综合案例建模分析(100分)销售订货管理系统是ERP的源头,如何管控销售订单下达、评审、跟进,不光是从软件上做约束管理,同时要从工作流程规定上做规范。【开发目的】规范公司订单下达、评审业务流程,提高客户订单准时交货率。【适用范围......
  • 12.21闲话
    推歌一梦千宵漫步在没来过的街巷灯火下看人潮多熙攘原来是过节了要换装楼阁也挂满彩帐买一串糖葫芦先尝尝再挑个俏铃铛戴手上不远处说书人开了嗓约上谁捧捧场莺歌蝶舞韶光长红炉煮茗松花香旧时华彩今又唱一夜花灯漾明宵梦长借漫天的烟火斑斓连同霄......
  • 闲话 2023.12.21
    网易云年度报告今天进行一个好题的分享,感觉我整个尬在台上了,选的题太简单了差点被创汇一的nb人士给切了......
  • 12.21周四每日博客
    今天上课进行了课堂测试软件需求与分析课堂测试十一—综合案例建模分析(100分)销售订货管理系统是ERP的源头,如何管控销售订单下达、评审、跟进,不光是从软件上做约束管理,同时要从工作流程规定上做规范。【开发目的】规范公司订单下达、评审业务流程,提高客户订单准时交货率。【......
  • 2023.12.21——每日总结
    学习所花时间(包括上课):9h代码量(行):0行博客量(篇):1篇今天,上午学习,下午学习;我了解到的知识点:1.设计模式明日计划:学习......
  • 12.21(update)
    续集细胞,不仅我们的体活因为整理考场顺便被停了(原因是因为他们明天放假,感情啥坏事都让我们沾上了呗),而且大黄也大概失败了大黄是谁?![o_231221100612_批注2023-12-21180539.png(781×241)(cnblogs.com)](https://images.cnblogs.com/cnblogs_com/blogs/807966/galleries/23579......
  • 百度网盘(百度云)SVIP超级会员共享账号每日更新(2023.12.21)
    一、百度网盘SVIP超级会员共享账号可能很多人不懂这个共享账号是什么意思,小编在这里给大家做一下解答。我们多知道百度网盘很大的用处就是类似U盘,不同的人把文件上传到百度网盘,别人可以直接下载,避免了U盘的物理载体,直接在网上就实现文件传输。百度网盘SVIP会员可以让自己百度账......