spark实验四RDD 编程初级实践

时间：2024-02-21 12:33:49浏览次数：30

标签：文件 val 编程 RDD import apache org spark

1．spark-shell 交互式编程
请到本教程官网的“下载专区”的“数据集”中下载 chapter5-data1.txt，该数据集包含
了某大学计算机系的成绩，数据格式如下所示：
Tom,DataBase,80
Tom,Algorithm,50
Tom,DataStructure,60
Jim,DataBase,90
Jim,Algorithm,60
Jim,DataStructure,80
……
请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：
（1）该系总共有多少学生；

（2）该系共开设来多少门课程；

（3）Tom 同学的总成绩平均分是多少；

（4）求每名同学的选修的课程门数；

（5）该系 DataBase 课程共有多少人选修；

（6）各门课程的平均分是多少；

（7）使用累加器计算共有多少人选了 DataBase 这门课。

2.编写独立应用程序实现数据去重
对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其
中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。
输入文件 A 的样例如下：
20170101 x
20170102 y
20170103 x
20170104 y
20170105 z
20170106 z
输入文件 B 的样例如下：
20170101 y
20170102 y
20170103 x
20170104 z
20170105 y
根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：
20170101 x
20170101 y
20170102 y
20170103 x
20170104 y
20170104 z
20170105 y
20170105 z
20170106 z
（1）编写代码

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object RemDup {
 def main(args: Array[String]) {
 val conf = new SparkConf().setAppName("RemDup")
 val sc = new SparkContext(conf)
 val dataFile = "file:///home/charles/data"
 val data = sc.textFile(dataFile,2)
 val res = data.filter(_.trim().length>0).map(line=>(line.trim,"")).partitionBy(new 
HashPartitioner(1)).groupByKey().sortByKey().keys
 res.saveAsTextFile("result")
 }
}

(2)sbt打包

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

(3)运行代码

3.编写独立应用程序实现求平均值问题
每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生
名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到
一个新文件中。下面是输入文件和输出文件的一个样例，供参考。
Algorithm 成绩：
小明 92
小红 87
小新 82
小丽 90
Database 成绩：
小明 95
小红 81
小新 89
小丽 85
Python 成绩：
小明 82
小红 83
小新 94
小丽 91
平均成绩如下：
(小红,83.67)
(小新,88.33)
(小明,89.67)
(小丽,88.67)
(1)编写scala代码

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object AvgScore {
 def main(args: Array[String]) {
 val conf = new SparkConf().setAppName("AvgScore")
 val sc = new SparkContext(conf)
 val dataFile = "file:///home/charles/data"
 val data = sc.textFile(dataFile,3)
val res = data.filter(_.trim().length>0).map(line=>(line.split(" ")(0).trim(),line.split(" 
")(1).trim().toInt)).partitionBy(new HashPartitioner(1)).groupByKey().map(x => {
 var n = 0
 var sum = 0.0
 for(i <- x._2){
 sum = sum + i
 n = n +1
 }
 val avg = sum/n
 val format = f"$avg%1.2f".toDouble
 (x._1,format)
 })
 res.saveAsTextFile("result")
 }
}

(2)使用sbt打包

name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"

(3)提交到spark-submit运行

标签：文件,val,编程,RDD,import,apache,org,spark
From： https://www.cnblogs.com/lmyy/p/18024939

Linux 网络编程从入门到进阶学习指南
前言大家好，我是小康。在上一篇文章中，我们探讨了Linux系统编程的诸多基础构件，包括文件操作、进程管理和线程同步等，接下来，我们将视野扩展到网络世界。在这个新篇章里，我们要让应用跳出单机限制，学会在网络上跨机器交流信息。接下来，我们要深入套接字（sockets）和TCP/IP协议，揭示如何......
Linux 系统编程从入门到进阶学习指南
引言大家好，我是小康，今天我们来学习一下Linux系统编程相关的知识。Linux系统编程是连接高级语言和硬件的桥梁，它对深入理解计算机系统至关重要。无论你是打算构建高性能服务器还是开发嵌入式设备，掌握Linux系统编程是C和C++开发者的基本技能。本文旨在为初学者提供一个清......
RDD算子
分布式集合对象上的API称之为算子算子分为两类：transformation算子：指返回值仍然是rdd，类似于stream里的中间流这类算子与中间流相同，是懒加载的action算子：返回值不是rdd，类似于stream里的终结流常见算子：1.map(func)：将rdd的数据一条一条的处理，返回新的rdd，和stream流的......
深入解析 Java 面向对象编程与类属性应用
Java面向对象编程面向对象编程(OOP)是一种编程范式，它将程序组织成对象。对象包含数据和操作数据的方法。OOP的优势:更快、更易于执行提供清晰的结构代码更易于维护、修改和调试提高代码重用性减少开发时间类和对象类是对象的模板，它定义了对象的属性和方法。对象......
spark编写WordCount代码（scala）
代码demopackagecom.spark.wordcountimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._importorg.apache.spark.SparkConfobjectWordCount{defmain(args:Array[String]){//文件位置valinputFile="hdfs://192.168.10......
spark为什么比mapreduce快？
spark为什么比mapreduce快？首先澄清几个误区：1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，所......
编程开发 --- springboot参考文档之概述
该文档来自于官方，本人只是翻译通顺、忽略废话、术语通俗解释、代码注释等优化工作，目的只是让我们更快的理解它。https://github.com/spring-projects/spring-boot/wiki 第一章法律版权声明 spring.io ©2012-2024您可以复制本文件供自己使用或分发给他人，但不得......
JUC并发编程与源码分析
基础JUC是java.util.concurrent在并发编程中使用的工具包。线程的start()方法底层使用本地方法start0()调用C语言接口，再由C语言接口调用操作系统创建线程。publicclassdemo(){publicstaticvoidmain(Strings[]args){Threadt1=newThread(()->{System......
Python异步编程原理篇之IO多路复用模块selector
selector简介selector是一个实现了IO复用模型的python包，实现了IO多路复用模型的select、poll和epoll等函数。它允许程序同时监听多个文件描述符（例如套接字），并在其中任何一个就绪时进行相应的操作。这样可以有效地管理并发I/O操作，提高程序的性能和资源利用率。本篇主要......
2月18日 spark实验三 hadoop和spark的安装和使用
1．安装Hadoop和Spark进入Linux系统，参照本教程官网“实验指南”栏目的“Hadoop的安装和使用”，完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后，再安装Spark（Local模式）。2．HDFS常用操作使用hadoop用户名登录进入Linux系统，启动Hadoop，参照相关Hadoop书籍或网......

spark实验四RDD 编程初级实践

相关文章

赞助商

阅读排行