一、Spark框架概述
1.1 spark是什么
定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。
弹性分布式数据集RDD:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark 整个平台都围绕着RDD进行。
1.2 spark的运行模式
1.3 spark的运行角色
二、环境搭建
1.首先打开hadoop102号虚拟机,进入到 /opt/software 目录下上传下载好的 Miniconda3-py39_4.10.3-Linux-x86_64.sh 安装包和 spark-3.2.0-bin-hadoop3.2.tgz 压缩包。
2.执行命令: sh ./Miniconda3-py39_4.10.3-Linux-x86_64.sh 命令下载miniconda,然后按回车,出现一堆授权信息,不用看直接按空格直到出现询问是否接受授权信息,然后输入yes并回车,同意后它会继续询问你miniconda的安装位置,输入位置 /opt/software/miniconda3 并回车,等待安装,成功后会询问你是否对miniconda进行初始化,输入yes回车,出现 Thank you for installing Miniconda3! 即为安装成功!
3.然后咱们关闭虚拟机再重新打开虚拟机,即可看到base环境了,输入python即可查看到python的版本,输入命令 exit() 后退出,创建一个名为pyspark的虚拟环境供我们学习使用。首先输入命令: conda create -n pyspark python=3.8 , 出现提示后输入 y ,等待一会后即创建虚拟环境成功。然后输入命令 conda activate pyspark 检验虚拟环境能否切换,进入成功即可。
4.(注意在pyspark的环境下执行)现在开始安装spark,首先进入到目录 /opt/software/ 下输入命令: tar -zxvf spark-3.2.0-bin-hadoop3.2.tgz 命令,进行解压。解压好后输入命令: mv spark-3.2.0-bin-hadoop3.2/ spark-3.2.0 进行改名方便后续配置环境变量。