Spark 01 WorkCount

时间：2024-09-14 22:02:43浏览次数：11

标签：01 -- WorkCount apache org spark Spark

安装 Spark

安装 Java 8+: https://spark.apache.org/docs/latest/index.html

安装 Spark: https://spark.apache.org/downloads.html

 ./spark-shell --version

代码

Spark 依赖: https://spark.apache.org/docs/latest/quick-start.html#self-contained-applications

        <dependency> <!-- Spark dependency -->
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>3.5.2</version>
            <scope>provided</scope>
        </dependency>

https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/JavaWordCount.java

统计单词代码

/**
 * SPARK_HOME=/Users/liaozibo/app/spark-3.5.2-bin-hadoop3
 * $SPARK_HOME/bin/spark-submit --class "WorkCount" --master "local[*]" target/spark-demo-1.0-SNAPSHOT.jar
 * */
public class WorkCount {
    public static void main(String[] args) {
        SparkSession spark = SparkSession.builder()
                .getOrCreate();
        JavaRDD<String> lineRdd = spark.read().textFile("/Users/liaozibo/code/demo/spark-demo/spark-wiki.txt").javaRDD();
        JavaRDD<String> wordRdd = lineRdd.flatMap(line -> Arrays.asList(line.split(" ")).iterator());
        JavaRDD<String> cleanWordRdd = wordRdd.filter(word -> !word.trim().isEmpty());
        List<Tuple2<Integer, String>> top5 = cleanWordRdd.mapToPair(word -> new Tuple2<>(word, 1))
                .reduceByKey(Integer::sum) // 按Key统计
                .mapToPair(Tuple2::swap)
                .sortByKey(false) // 按Key排序
                .take(5);
        top5.forEach(System.out::println);
        spark.stop();
    }
}

执行

打包代码 mvn package

执行代码

SPARK_HOME=/Users/liaozibo/app/spark-3.5.2-bin-hadoop3
$SPARK_HOME/bin/spark-submit --class "WorkCount" --master "local[*]" target/spark-demo-1.0-SNAPSHOT.jar

标签：01,--,WorkCount,apache,org,spark,Spark
From： https://www.cnblogs.com/liaozibo/p/18397388

实战13-搜索模块滑动效果01
import{getHomeDataApi}from'../api/home';import{BannerListDataSource,INavList,IPlanList,ITitleList}from'../api/models/HomeData';importSwiperLayoutfrom'../views/Home/SwiperLayout';import{window}from'......
[安洵杯 2019]easy_web
首先抓包可以看到img是一个base64编码依次经过base64,base64,asciihex解码得到一个图片名555.png那么我们可以利用这一点反过去看index.php的源码，修改头img=TmprMlpUWTBOalUzT0RKbE56QTJPRGN3最后经过base64解码后<?phperror_reporting(E_ALL||~E_NOTICE);header('con......
201 Introducing Mutations - A Better Way of Changing Data
在Vue中，Mutations是Vuex状态管理模式中的重要组成部分。Mutations主要用于更改Vuex中的状态。它提供了一种集中且规范的方式来修改应用的全局状态数据。每个Mutation都是一个函数，函数接收当前的状态作为第一个参数，通过对状态的直接修改来实现状态的变更。Mutatio......
MAST20018 – Discrete Mathematics and Operations Research
MAST20018 – Discrete Mathematics and Operations ResearchAssignment 3Upload to Gradescope by 5pm Wed 18th September 2024Question 1In assignment 1, you considered the following project with 8 activities, labelled A to H:......
【csp201912-2】回收站选址
题目背景开学了，可是校园里堆积了不少垃圾杂物。热心的同学们纷纷自发前来清理，为学校注入正能量~题目描述通过无人机航拍我们已经知晓了n处尚待清理的垃圾位置，其中第i(1≤i≤n)处的坐标为(x,y)，保证所有的坐标均为整数。我们希望在垃圾集中的地方建立些回收站。具体来说，对......
Java 与大数据：Hadoop 和 Spark 的完美集成
......
合宙Air201资产定位模组LuatOS课程：GPS/LBS/Wi-Fi定位
已经推出3期课程啦：helloworld、点灯、远程控制，小伙伴们是不是收获满满，期待更高阶的应用呢？本期，我们将学习合宙Air201的核心功能之一——定位功能！Air201定位示例教程合宙Air201资产定位模组——是一个集成超低功耗4G通信、语音通话、超低功耗定位、计步、震动、Type-C、充电、放......
TiDB 数据库核心原理与架构_Lesson 01 TiDB 数据库架构概述课程整理
作者：尚雷5580注：本文基于TiDB官网董菲老师《TiDB数据库核心原理与架构（101)》系列教程之《Lesson01TiDB数据库架构概述》内容进行整理和补充。一、TiDB体系架构1.1TiDB五大核心特性一键水平扩缩容得益于存储与计算分离的架构，TiDB支持按需对计算和存储进行在线扩......
3ds Max 2018 进阶快捷键操作笔记
1.视图与界面控制Alt+W：切换当前视口最大化。工作时常需要在多个视口之间切换，该快捷键帮助快速专注于某一视口细节。F3：切换线框模式与实体模式。方便随时观察模型的结构和表面，特别是在检查复杂几何形状时非常有用。F4：显示网格边缘。在实体模式下显示线框，常用于优化模型的......
合宙Air201模组LuatOS：点灯仪式
上一期教程，我们学习了合宙Air201helloworld，很多小伙伴有了初步了解，接下来，推出第二篇：你将体验工程师的重要仪式——点灯！Air201点灯教程合宙Air201资产定位模组——是一个集成超低功耗4G通信、语音通话、超低功耗定位、计步、震动、Type-C、充电、放音、录音等功能的超小PCBA。......

Spark 01 WorkCount

安装 Spark

代码

执行

相关文章

赞助商

阅读排行