首页 > 其他分享 >12-23

12-23

时间:2023-12-25 13:34:32浏览次数:45  
标签:文件 12 23 应用程序 Spark 成绩 输入 小新

Spark初级编程实践

 

1.实验目的

(1)掌握使用Spark访问本地文件和HDFS文件的方法

(2)掌握Spark应用程序的编写、编译和运行方法

2.实验平台

(1)操作系统:Ubuntu18.04(或Ubuntu16.04);

(2)Spark版本:2.4.0;

(3)Hadoop版本:3.1.3。

3.实验步骤

(1)Spark读取文件系统的数据

(1)在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数;

(2)在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;

(3)编写独立应用程序(推荐使用Scala语言),读取HDFS系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数;通过sbt工具将整个应用程序编译打包成 JAR包,并将生成的JAR包通过 spark-submit 提交到 Spark 中运行命令。

(2)编写独立应用程序实现数据去重

对于两个输入文件A和B,编写Spark独立应用程序(推荐使用Scala语言),对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。下面是输入文件和输出文件的一个样例,供参考。

输入文件A的样例如下:

20170101    x

20170102    y

20170103    x

20170104    y

20170105    z

20170106    z

输入文件B的样例如下:

20170101    y

20170102    y

20170103    x

20170104    z

20170105    y

根据输入的文件A和B合并得到的输出文件C的样例如下:

20170101    x

20170101    y

20170102    y

20170103    x

20170104    y

20170104    z

20170105    y

20170105    z

20170106    z

(3)编写独立应用程序实现求平均值问题

每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生名字,第二个是学生的成绩;编写Spark独立应用程序求出所有学生的平均成绩,并输出到一个新文件中。下面是输入文件和输出文件的一个样例,供参考。

Algorithm成绩:

小明 92

小红 87

小新 82

小丽 90

Database成绩:

小明 95

小红 81

小新 89

小丽 85

Python成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下:

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

标签:文件,12,23,应用程序,Spark,成绩,输入,小新
From: https://www.cnblogs.com/YFLZ/p/17925908.html

相关文章

  • 2023最新中级难度Ruby面试题,包含答案。刷题必备!记录一下。
    好记性不如烂笔头内容来自面试宝典-中级难度Ruby面试题合集问:请解释一下Ruby中的方法可见性修饰符有哪些,分别代表什么含义?在Ruby中,方法可见性修饰符用于定义一个方法或变量在类和子类中的可见性和可访问性。这些修饰符可以控制其他代码对它们的访问权限。以下是Ruby中主......
  • 2023最新高级难度Ruby面试题,包含答案。刷题必备!记录一下。
    好记性不如烂笔头内容来自面试宝典-高级难度Ruby面试题合集问:在Ruby中,如何使用CAPI来扩展Ruby的功能?请举例说明。在Ruby中,可以通过CAPI来扩展Ruby的功能。使用CAPI编写Ruby扩展可以实现高性能的代码,并且允许你利用C语言的强大功能和灵活性。以下是一个简单的例子,展示......
  • 12月Camera Raw16.1更新,支持win+mac,镜头模糊功能增强
    AdobeCameraRaw插件在12月迎来了史诗级更新,当前最新版本为CameraRaw16.1版本。这次更新不仅功能更强大、性能更稳定,而且融入了人工智能黑科技!实现了一键调色、一键虚化的新效果,修图越来越简单智能了。云盘下载链接:https://pan.xunlei.com/s/VNmUAFhB9F841QV0S2aR5d_5A1?pwd=3y......
  • 强大的VS插件CodeRush全新发布v23.2——支持并发.NET类型
    CodeRush是一个强大的VisualStudio.NET插件,它利用整合技术,通过促进开发者和团队效率来提升开发者体验。CodeRush能帮助你以极高的效率创建和维护源代码。Consume-first申明,强大的模板,智能的选择工具,智能代码分析和创新的导航以及一个无与伦比的重构集,在它们的帮助下能够大大的......
  • 2023安洵杯第六届网络安全挑战赛 WP
    webai_java首先通过附件帐号信件获取到帐号通过base64或者jsfuck可获取提示js和c,审计一下js那么可以看到c函数,运行一下。获取到github项目地址查找提交历史我们发现了源码审计源码发现为可能存在spring–boot未授权绕过在admin的页面下的/post_message/接口存在fastjson解析......
  • 上周热点回顾(12.18-12.24)
    热点随笔:· 【故障公告】疑似未知知名搜索引擎蜘蛛来袭,一台负载均衡带宽跑满 (博客园团队)· 如何快速优化几千万数据量的订单表 (程序员济癫)· 微软官方发布的C#开源、免费、实用的Windows工具箱 (追逐时光者)· 2023年最后一波工具安利「GitHub热点速览」 (削微寒)......
  • 2023年我国冷链需求总量预计达到3.5亿吨
    随着我国冷链物流需求的逐步企稳回升,2023年预计冷链需求总量将达到3.5亿吨,冷链物流相关基础设施也在快速增长。据中国物流与采购联合会(中物联)的数据,冷链物流总收入预计达到5170亿元,同比增长5.2%。冷藏车保有量预计将超过43万辆,冷库总量预计达到2.28亿立方米。冷链需求稳步增......
  • 2023-12-25 无法正常关闭你的电脑 错误代码:0xc0000001 ==》试一下用windows命令【sfc
    最近我的电脑每次早上开机的时候就开始蓝屏,哪怕我晚上把它设置为睡眠模式,第二天打开还是不断蓝屏,对,不是一次,而是起码七八次!我的解决方案就是用命令去修复了一下,其实我在写这个随笔的时候我也不知道明天是否能够正常开机。先说导致蓝屏的代码:0xc0000001这个代码不一定能正确代表......
  • Programming Abstractions in C阅读笔记:p235-p241
    《ProgrammingAbstractionsinC》学习第66天,p235-p241总结。一、技术总结1.backtrackingalgorithm(回溯算法)(1)定义p236,Formanyreal-worldproblem,thesolutionprocessconsitsofworkingyourwaythroughasequenceofdecisionpointsinwhicheachchoicleadsyo......
  • 【2023-12-23】家务能减压
    20:00逆境之所以是人类追求完善人生发展不可或缺的要素,是因为逆境迫使我们停下脚步,让我们有机会注意到其他歧路,思考我们真正想要的人生终点。                                          ......