spark编写WordCount代码（scala）

时间：2024-02-20 16:33:20浏览次数：26

标签：SparkContext val scala WordCount sc import spark

代码demo

package com.spark.wordcount

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object WordCount {
  def main(args: Array[String]) {
    //文件位置
    val inputFile =  "hdfs://192.168.10.106:8020/tmp/README.txt"
    //创建SparkConf()并且设置App的名称
    val conf = new SparkConf().setAppName("WordCount").setMaster("local")
    //创建SparkContext,该对象是提交spark app的入口 
    val sc = new SparkContext(conf)
    //读取文件
    val textFile = sc.textFile(inputFile)
    //使用sc创建rdd,并且执行相应的transformation和action
    val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
    //打印输出
    wordCount.foreach(println)
    //停止sc,结束任务
    sc.stop()
  }
}

运行结果

标签：SparkContext,val,scala,WordCount,sc,import,spark
From： https://www.cnblogs.com/whiteY/p/18023425

spark为什么比mapreduce快？
spark为什么比mapreduce快？首先澄清几个误区：1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，所......
2月18日 spark实验三 hadoop和spark的安装和使用
1．安装Hadoop和Spark进入Linux系统，参照本教程官网“实验指南”栏目的“Hadoop的安装和使用”，完成Hadoop伪分布式模式的安装。完成Hadoop的安装以后，再安装Spark（Local模式）。2．HDFS常用操作使用hadoop用户名登录进入Linux系统，启动Hadoop，参照相关Hadoop书籍或网......
2月17日spark实验2 Scala 语言基础
计算级数请用脚本的方式编程计算并输出下列级数的前n项之和Sn，直到Sn刚好大于或等于q为止，其中q为大于0的整数，其值通过键盘输入。例如，若q的值为50.0，则输出应为：Sn=50.416695。请将源文件保存为exercise2-1.scala，在REPL模式下测试运行，测试样......
pyspark集成访问hive数据踩坑记录
当前环境anaconda3、python3.9.13、jupyter需要安装的pyspark、py4jpyspark和py4j的离线安装包地址Linksforpyspark(tsinghua.edu.cn)和Linksforpy4j(tsinghua.edu.cn)一开我自己没有仔细的对应版本，找了一个pyspark3.4.1的包正常安装上去了，通过pyspark进入shell可以正......
实验 2 Scala 编程初级实践
参考博客——https://www.cnblogs.com/kt-xb/p/12297023.html Linux—— 进入Scala所在目录，创建文件夹mycode 赋予文件夹权限 chmod-R777文件夹所在目录创建test.scala，输入代码，执行文件代码内容——importscala.io.StdInobjecttest{ defmain(arg......
Scala与spark的关系
Spark集群是基于ApacheSpark的分布式计算环境，用于处理大规模数据集的计算任务。ApacheSpark是一个开源的、快速而通用的集群计算系统，提供了高级的数据处理接口，包括SparkSQL、SparkStreaming、MLlib（机器学习库）和GraphX（图计算库）。Spark的一个主要特点是能够在内存中进行数据处......
spark实验一
1．安装Linux虚拟机请登录Windows系统，下载VirtualBox软件和Ubuntu16.04镜像文件。VirtualBox软件的下载地址：https://www.virtualbox.org/wiki/Downloads。Ubuntu16.04的镜像文件下载地址：http://www.ubuntu.org.cn/download/desktop。或者也可以直接到本教程官网的“下......
【Flink入门修炼】1-3 Flink WordCount 入门实现
本篇文章将带大家运行Flink最简单的程序WordCount。先实践后理论，对其基本输入输出、编程代码有初步了解，后续篇章再对Flink的各种概念和架构进行介绍。下面将从创建项目开始，介绍如何创建出一个Flink项目；然后从DataStream流处理和FlinkSQL执行两种方式来带大家学习Word......
Scala--纯粹的面向对象语言
Scala是一种多范式的编程语言，它将面向对象和函数式编程结合在一个简洁的高级语言中，Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。Scala基于JVM,和Java完全兼容,同样具有跨平台,可以执行好,方便的垃圾回收等特性;Scala是一种纯粹的面向对象语言;Scala是一门函数式编程语......
解决hive-cli客户端on spark 不能正常加载本地的native库
问题现象CDH版本：6.3.21）使用hive-clionspark运行的时候，出现如下错误：FAILED:ExecutionError,returncode3fromorg.apache.hadoop.hive.ql.exec.spark.SparkTask.Sparkjobfaileddueto:Jobabortedduetostagefailure:AbortingTaskSet0.0becausetask0(par......

spark编写WordCount代码（scala）

代码demo

运行结果

相关文章

赞助商

阅读排行