网站首页
编程语言
数据库
系统相关
其他分享
编程问答
rdd1
2024-08-04
【Spark计算引擎----第二篇(RDD):一篇文章带你清楚什么是RDD?RDD的概念,RDD的特性,怎么创建一个RDD,RDD的算子】
前言:
2023-07-01
Spark中RDD的Transformation算子
RDD的Transformation算子mapmap算子的功能为做映射,即将原来的RDD中对应的每一个元素,应用外部传入的函数进行运算,返回一个新的RDDvalrdd1:RDD[Int]=sc.parallelize(List(1,2,3,4,5,6,7,8,9,10),2)valrdd2:RDD[Int]=rdd1.map(_*2)flatMapflatMap算子的功能为扁平
2023-04-30
Spark安装部署与基础实践
安装java运行命令sudoaptinstallopenjdk-8-jdk-headless进行安装运行java-version测试安装是否成功,结果如下,安装成功安装Spark运行wgethttp://mirror.bit.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz下载spark运行tar-xzvfspark-2.4.5-bin-
2022-10-19
SparkCore(二)
RDD的API操作/方法/算子比如有一个100M的csv文件,需要对它的每个元素操作,比如先+1,再平方,结果保存另一个csv文件。如下图,如果用传统python思维,不仅每个中间容器占用内存,消
2022-08-30
DataFrame与rdd之间的转换(val rdd1 = dataFrame.rdd)
核心语句valrdd1=dataFrame.rddpackageSparkSQL.DataFreamCreate.dataframetorddimportorg.apache.spark.SparkConfimportorg.apache.spark.rdd.RDDimportorg.