首页 > 其他分享 >spark教程-1

spark教程-1

时间:2023-08-31 16:44:29浏览次数:34  
标签:教程 scala rdd foreach apache org spark

scala基本操作

scala> val input=sc.textFile("C:\\Users\\gwj\\Desktop\\cont.txt")
input: org.apache.spark.rdd.RDD[String] = C:\Users\gwj\Desktop\cont.txt MapPartitionsRDD[3] at textFile at <console>:23

scala> input.count()
res2: Long = 129

scala> val rdd = sc.parallelize(Array(1,2,2,4),4)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:23

scala> rdd.count()
res3: Long = 4

scala> rdd.foreach(print)
2241
scala> rdd.foreach(println)
2
1
2
4
scala> val lines2=input.filter(line=>line.contains("知乎"))
lines2: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[5] at filter at <console>:23
scala> lines2.foreach(println)
有没有大佬知道现在什么免费的虚拟机好用啊啊? - 知乎
病毒会不会逃出虚拟机? - 知乎
大佬们,主要的开源虚拟化平台都有哪些啊。? - 知乎
虚拟机 VMware 和 VirtualBox 哪个更好用? - 知乎
推荐一个免费好用的虚拟机软件 - 知乎
虚拟机 VMware 和 VirtualBox 哪个更好用? - 知乎
VirtualBox - 知乎
知乎专栏
推荐一个免费好用的虚拟机软件 - 知乎
VMware下载、安装、卸载、使用 - 知乎

scala> val lines=sc.parallelize(Array("Hello","Spark","Hello","World"))
lines: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[7] at parallelize at <console>:23

scala> lines.foreach(println)
World
Hello
Spark
Hello

scala> val lines2=lines.map(word=>(word,1))
lines2: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[8] at map at <console>:23

scala> lines2.foreach(println)
(Spark,1)
(Hello,1)
(Hello,1)
(World,1)

scala> val lines3=lines.filter(word=>word.contains("ll"))
lines3: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[9] at filter at <console>:23

scala> lines3.foreach(print)
HelloHello
scala> lines3.foreach(println)
Hello
Hello

scala> val line4=lines.flatMap(word=>word.split(" "))
line4: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[10] at flatMap at <console>:23

scala> line4.foreach(prirnt)
<console>:24: error: not found: value prirnt
       line4.foreach(prirnt)
                     ^

scala> line4.foreach(print)
HelloSparkWorldHello

scala> line4.foreach(print)
HelloSparkWorldHello
scala> line4.foreach(println)
World
Hello
Hello
Spark

scala> val line5=line4.map(word=>(word,1))
line5: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[11] at map at <console>:23

scala> line5.foreach(println)
(World,1)
(Spark,1)
(Hello,1)
(Hello,1)

scala> val line6=sc.parallelize(Array("a","a","b","c"))
line6: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[12] at parallelize at <console>:23

scala> line6.foreach(println)
b
a
c
a

scala> val line7=line6.distinct()
line7: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[15] at distinct at <console>:23

scala> line7.foreach(println)
b
c
a

scala> val line8=line7.intersection(line6)
line8: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[21] at intersection at <console>:24

scala> line8.foreach(println)
c
a
b

scala> val line9=line7.subtract(line6)
line9: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[25] at subtract at <console>:24

scala> line9.foreach(println)

scala> val line10=line6.subtract(line7)
line10: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[29] at subtract at <console>:24

scala> line10.foreach(println)

标签:教程,scala,rdd,foreach,apache,org,spark
From: https://www.cnblogs.com/D876887913/p/17668578.html

相关文章

  • PPT图片处理教程5大抠图方法:堪比PS!
    PPT图片处理教程5大抠图方法:堪比PS! 。如何在制作PPT的过程中提取图片。比如,当你准备给妹子做一份PPT的时候,妹子想要把N多图片放在里面,但又不想做的太LOW,这要怎么解(gai)咯?如果你对今天的主题还有兴趣,就可以接着看下去。思想准备:1、放下节操,慢慢看;2、带上忍耐心,忍受逗逼李益达......
  • 无涯教程-Android - EditText函数
    EditText是TextView的覆盖层,该覆盖层将自身配置为可编辑的。它是TextView的预定义子类,其中包含丰富的编辑功能。EditText-属性以下是与EditText控件相关的重要属性。您可以查看Android官方文档以获取属性的完整列表以及可以在运行时更改这些属性的相关方法。继承自android.......
  • AI一镜到底如何实现:最火的罗刹海市MV,超解压视频教程
    文末附AI绘画教程,网盘链接直接保存下载:自认为图片还没有大佬做的好,凑合用,先把教程整理好图片已经放在网盘链接,需要的自取尝试制作。我用夸克网盘分享了「AI绘画美图分享」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。链接:https://pan......
  • 这可能是Github上最全面的Flutter教程,带你玩转Flutter
    Flutter是什么来头?Flutter是一款开源UI工具包,可利用单一代码库构建本地编译的移动、Web和桌面应用程序。Flutter由谷歌牵头开发,允许开发者构建出具有良好表现力、灵活设计、样式美观且运行迅速的应用程序。Flutter的核心语言为Dart,这是一种现代多范式语言,能够面向多个平台......
  • 新增!视频智能分析/AI算法智能分析网关V5告警功能添加教程来咯!
    智能分析网关系列是基于边缘AI计算技术,可对前端摄像头采集的视频流进行实时检测分析,能对监控画面中的人、车、物进行识别,可实现的检测包括:人脸检测与识别、车辆检测与识别、烟火识别、安全帽/反光衣识别、区域入侵识别等,支持对检测到的异常进行实时告警、抓拍、推送。近期,智能分析......
  • Python教程(11)——Python中的字典dict的用法介绍
    列表虽然好,但是如果需要快速的数据查找,就必须进行需要遍历,也就是最坏情况需要遍历完一遍才能找到需要的那个数据,时间复杂度是O(n),显然这个速度是很难接受的,于是就必须要有新的数据结构出现,于是字典就诞生了!在Python中,字典(Dictionary)是一种无序的数据结构,用于存储键值对(key-value)。......
  • mysql学习教程篇(三)
    一、分组查询#进阶5:分组查询/*语法:select查询列表from表【where筛选条件】groupby分组的字段【orderby排序的字段】;特点:1、和分组函数一同查询的字段必须是groupby后出现的字段2、筛选分为两类:分组前筛选和分组后筛选 针对的表 位置 连接的关键字分......
  • mysql学习教程篇(二)——基础查询和条件查询
    1.基础查询#进阶1:基础查询/*语法:select查询列表from表名;类似于:System.out.println(打印东西);特点:1、查询列表可以是:表中的字段、常量值、表达式、函数2、查询的结果是一个虚拟的表格*/USEmyemployees;#1.查询表中的单个字段SELECTlast_nameFROMemploy......
  • clang-format配置教程
    title:"clang-format配置教程"date:2023-08-29T16:05:25+08:00tags:["clang"]categories:[]draft:false配置clang-formatQtCreator使用clang-format_利白的博客-CSDN博客Git如何将clang-formatting添加到预提交钩子|极客教程clang-format二进制文件下载:https://ll......
  • 黑马教程金融类安全传输平台项目环境部署
    看完这个教程之后金融类安全传输平台项目(C/C++阶段五),看见评论区有个兄弟分享了源码,https://github.com/Peachol/Secure_data_transmission于是我就clone下来尝试跑一下,结果发现事情并没有那么简单,花了一下午才把项目跑起来,然后目前还有报错,但是已经能让客户端和服务端通信了,故记......