文章目录
第1关:WordCount - 词频统计
任务描述
本关任务:使用 Spark Core 知识编写一个词频统计程序。
编程要求
请仔细阅读右侧代码,根据方法内的提示,在Begin - End区域内进行代码补充,具体任务如下:
对文本文件内的每个单词都统计出其出现的次数。
按照每个单词出现次数的数量,降序排序。
文本文件内容如下:
hello java
hello python java
hello python python
hello flink
scala scala scala scala scala
说明:单词与单词之间以空格进行分割
测试说明
补充完代码后,点击测评,平台会对你编写的代码进行测试,当你的结果与预期输出一致时,即为通过。
测试输入:可查看右侧文件夹中wordcount.txt文件,具体内容为上述文本内容。
预期输出:
(scala,5)
(hello,4)
(python,3)
(java,2)
(flink,1)
代码
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster("local").setAppName("WordCount")
val sc = new SparkContext(conf)
val path = "file:///root/files/wordcount.txt"
/********* Begin *********/
//读取文件创建RDD
val file = sc.textFile(path)
//切分并压平
val words: RDD[String] = file.flatMap(_.split(" "))
//组装
val wordsAndone: RDD[(String, Int)] = words.map((_,1))
//分组聚合
val result: RDD[(String, Int)] = wordsAndone.reduceByKey(_+_)
//排序
val result1: RDD[(String, Int)] = result.sortBy(_._2,false)
//输出
result1.foreach(println)
/********* End *********/
sc.stop()
}
}
标签:String,val,scala,python,Scala,RDD,算子,Spark,hello From: https://blog.csdn.net/2301_77225918/article/details/140419630