首页 > 其他分享 >spark编写WordCount代码(scala)

spark编写WordCount代码(scala)

时间:2024-02-20 16:33:20浏览次数:26  
标签:SparkContext val scala WordCount sc import spark

代码demo

package com.spark.wordcount

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object WordCount {
  def main(args: Array[String]) {
    //文件位置
    val inputFile =  "hdfs://192.168.10.106:8020/tmp/README.txt"
    //创建SparkConf()并且设置App的名称
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    //创建SparkContext,该对象是提交spark app的入口 
    val sc = new SparkContext(conf)
    //读取文件
    val textFile = sc.textFile(inputFile)
    //使用sc创建rdd,并且执行相应的transformation和action
    val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
    //打印输出
    wordCount.foreach(println)
    //停止sc,结束任务
    sc.stop()
  }
}

运行结果

标签:SparkContext,val,scala,WordCount,sc,import,spark
From: https://www.cnblogs.com/whiteY/p/18023425

相关文章

  • spark为什么比mapreduce快?
    spark为什么比mapreduce快?首先澄清几个误区:1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以快,显然是错误的2;DAG计算模型减少的是磁盘I/O次数(相比于mapreduce计算模型而言),而不是shuffle次数,因为shuffle是根据数据重组的次数而定,所......
  • 2月18日 spark实验三 hadoop和spark的安装和使用
    1.安装Hadoop和Spark进入Linux系统,参照本教程官网“实验指南”栏目的“Hadoop的安装和使用”,完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后,再安装Spark(Local模式)。2.HDFS常用操作使用hadoop用户名登录进入Linux系统,启动Hadoop,参照相关Hadoop书籍或网......
  • 2月17日spark实验2 Scala 语言基础
    计算级数请用脚本的方式编程计算并输出下列级数的前n项之和Sn,直到Sn刚好大于或等于q为止,其中q为大于0的整数,其值通过键盘输入。例如,若q的值为50.0,则输出应为:Sn=50.416695。请将源文件保存为exercise2-1.scala,在REPL模式下测试运行,测试样......
  • pyspark集成访问hive数据踩坑记录
    当前环境anaconda3、python3.9.13、jupyter需要安装的pyspark、py4jpyspark和py4j的离线安装包地址Linksforpyspark(tsinghua.edu.cn)和Linksforpy4j(tsinghua.edu.cn)一开我自己没有仔细的对应版本,找了一个pyspark3.4.1的包正常安装上去了,通过pyspark进入shell可以正......
  • 实验 2 Scala 编程初级实践
    参考博客——https://www.cnblogs.com/kt-xb/p/12297023.html Linux—— 进入Scala所在目录,创建文件夹mycode 赋予文件夹权限 chmod-R777文件夹所在目录 创建test.scala,输入代码,执行文件代码内容——importscala.io.StdInobjecttest{    defmain(arg......
  • Scala与spark的关系
    Spark集群是基于ApacheSpark的分布式计算环境,用于处理大规模数据集的计算任务。ApacheSpark是一个开源的、快速而通用的集群计算系统,提供了高级的数据处理接口,包括SparkSQL、SparkStreaming、MLlib(机器学习库)和GraphX(图计算库)。Spark的一个主要特点是能够在内存中进行数据处......
  • spark实验一
    1.安装Linux虚拟机请登录Windows系统,下载VirtualBox软件和Ubuntu16.04镜像文件。VirtualBox软件的下载地址:https://www.virtualbox.org/wiki/Downloads。Ubuntu16.04的镜像文件下载地址:http://www.ubuntu.org.cn/download/desktop。或者也可以直接到本教程官网的“下......
  • 【Flink入门修炼】1-3 Flink WordCount 入门实现
    本篇文章将带大家运行Flink最简单的程序WordCount。先实践后理论,对其基本输入输出、编程代码有初步了解,后续篇章再对Flink的各种概念和架构进行介绍。下面将从创建项目开始,介绍如何创建出一个Flink项目;然后从DataStream流处理和FlinkSQL执行两种方式来带大家学习Word......
  • Scala--纯粹的面向对象语言
    Scala是一种多范式的编程语言,它将面向对象和函数式编程结合在一个简洁的高级语言中,Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。Scala基于JVM,和Java完全兼容,同样具有跨平台,可以执行好,方便的垃圾回收等特性;Scala是一种纯粹的面向对象语言;Scala是一门函数式编程语......
  • 解决hive-cli客户端on spark 不能正常加载本地的native库
    问题现象CDH版本:6.3.21)使用hive-clionspark运行的时候,出现如下错误:FAILED:ExecutionError,returncode3fromorg.apache.hadoop.hive.ql.exec.spark.SparkTask.Sparkjobfaileddueto:Jobabortedduetostagefailure:AbortingTaskSet0.0becausetask0(par......