首页 > 其他分享 >spark环境部署之wordCount初体验

spark环境部署之wordCount初体验

时间:2023-09-27 17:35:11浏览次数:45  
标签:初体验 val wordCount hadoop shell 词频 spark local

一.安装spark

1.1 下载并解压

官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载:

解压安装包

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

1.2 配置环境变量

vim /etc/profile


export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH



#使得配置的环境变量立即生效:

source /etc/profile

1.3 Local模式

Local 模式是最简单的一种运行方式,它采用单节点多线程方式运行,不用部署,开箱即用,适合日常测试开发。

# 启动spark-shell
spark-shell --master local[2]

  • local:只启动一个工作线程;

  • local[k]:启动 k 个工作线程;

  • local[*]:启动跟 cpu 数目相同的工作线程数。

进入 spark-shell 后,程序已经自动创建好了上下文 SparkContext,等效于执行了下面的 Scala 代码:

val conf = new SparkConf().setAppName("Spark shell").setMaster("local[*]")
val sc = new SparkContext(conf)

二.词频统计案例

安装完成后可以先做一个简单的词频统计例子,感受 spark 的魅力。准备一个词频统计的文件样本 spark_test.txt,内容如下:

hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop

在 scala 交互式命令行中执行如下 Scala 语句:

val file = spark.sparkContext.textFile("file:///data/yyy/spark_test.tx")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect

执行过程如下,可以看到已经输出了词频统计的结果:

同时还可以通过 Web UI 查看作业的执行情况,访问端口为 4040:

标签:初体验,val,wordCount,hadoop,shell,词频,spark,local
From: https://www.cnblogs.com/whiteY/p/17733218.html

相关文章

  • 大数据 | Spark基本使用示例
    欢迎参观我的博客,一个Vue与SpringBoot结合的产物:https://poetize.cn博客:https://gitee.com/littledokey/poetize-vue2.git聊天室:https://gitee.com/littledokey/poetize-im-vue3.git后端:https://gitee.com/littledokey/poetize.git七牛云登录/注册地址(文件服务器,CDN):https:/......
  • 本地测试Spark的svm算法
    上一篇介绍了逻辑回归算法,发现分类效果不好,通过这次的svm发现是因为训练数据不行,于是网上找了部分训练数据,发现实际上分类效果还可以。    训练数据,第一个值是标签,下面的数据是某种花的相关特征。1|5.1,3.5,1.4,0.21|4.9,3,1.4,0.21|4.7,3.2,1.3,0.21|4.6,3.1,1.5,0.21......
  • 本地测试Spark的逻辑回归算法
    本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法,效果不尽如人意。    数据样例如下,竖杠前的0,1代表两种类型,后面逗号隔开的是两个特征,两个特征只要有一个大于等于0.6就会被分为1这一类,否则就是0。1|0.3,0.60|0.2,0.11|0.5,0.61|0.8,0.30|0.4,0.30|0.3,0.......
  • Flutter/Dart第01天:Dart安装和初体验
    本博客原地址:https://ntopic.cn/p/2023092301/Dart的安装方式有几种:一种是下载源代码,然后编译安装;一种是通过包管理工具进行安装。Dart官方网站分表列出了针对Windows、Linux和MacOS的安装方式:https://dart.dev/get-dart我下面在个人MacOS上介绍brew包管理工具安装方法和过程:......
  • SparkSql 写 Es
    官方文档key备注es.write.operationindex(默认)添加新数据,旧数据被替换,重新索引;create添加新数据,数据存在抛出异常;update更新现有数据,不存在抛出异常,upsert插入及更新es.mapping.id_ides的doc_id出仓脚本exg:CREATETEMPORARYVIEWtable_name(`i......
  • Ansible专栏文章之二:初入Ansible世界,用法概览和初体验
    回到:Ansible系列文章各位读者,请您:由于Ansible使用Jinja2模板,它的模板语法{%raw%}{{}}{%endraw%}和{%raw%}{%%}{%endraw%}和我博客系统hexo的模板使用的符号一样,在渲染时会产生冲突,尽管我尽我努力地花了大量时间做了调整,但无法保证已经全部都调整。因此,如果各位阅......
  • AI 编码助手 Codewhisperer 安装步骤和使用初体验
    文章作者:为了自己加油最近亚⻢逊云科技推出了一款基于机器学习的AI编程助手AmazonCodeWhisperer,可以实时提供代码建议。在编写代码时,它会自动根据现有的代码和注释给出建议。AmazonCodeWhisperer与GitHubCopilot类似,主要的功能有:代码补全注释和文档补全代码......
  • 亚马逊 CodeWhisperer 初体验
    1、CodeWhisperer介绍CodeWhisperer是亚马逊出品的一款基于机器学习的通用代码生成器,可实时提供代码建议。类似Cursor和GithubCopilot编码工具。官网:https://aws.amazon.com/cn/codewhisperer/?trk=cndc-detail在编写代码时,它会自动根据您现有的代码和注释生成建议。从......
  • apache-paimon初体验 (hive用法待完善)
    1.官网https://paimon.apache.org/docs/master/engines/hive/2.安装flink3.下载依赖包到flinklib目录下4.运行yarnsession创建Application-Name,并修改配置文件./bin/yarn-session.sh-nmflink-sql-d拿到对应的applicationID信息配置到conf文件里yarnapp-lis......
  • 第04章 Spark SQL常用参数
    目录第04章SparkSQL常用参数24.1AQE优化控制24.2SHUFFLE分区个数控制34.3SHUFFLE输入大小控制34.4TASK内存参数34.5TASK同时运行个数34.6其它REDUCE阶段相关参数44.7如何预估每个REDUCE任务处理的数据量6第04章SparkSQL常用参数4.1AQE优化控制通过设置spark.sq......