内容
选择这两个版本是考虑到版本稳定
- spark2.4.5
- Hadoop2.7.7
- scala与spark对应版本(不需要安装)
先创建一个普通的maven项目(记得在Intellij idea中先安装对应的scala插件)
然后再添加项目架构
选择对应的scala结构
在版本的控制中需要参考不同版本的spark项目对应的scala版本,然后就正常识别出来了
代码
这是一个简单的词汇统计的代码
package org.HelloWorld
import org.apache.spark.{SparkConf, SparkContext}
import scala.io.Source
object HelloWorld {
def main(args: Array[String]) = {
// 创建 Spark 运行配置对象
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("单词数量统计:").setMaster("local[6]")
.set("spark.testing.memory", "512000000")
// 创建 Spark 上下文环境对象(连接对象)
val sc = new SparkContext(sparkConf)
val lines = sc.textFile("src/main/resources/input.txt")
val pairs = lines.flatMap(s => s.split("\\b"))
.map(w => (w, 1))
val counts = pairs.reduceByKey((a, b) => a + b)
counts.foreach(println)
}
}
然后经过一小段时间的编译后就可以看到结果了