(三)下载安装Spark
1、Spark安装包下载地址:https://spark.apache.org/
进入下载页面后,点击主页的“Download”按钮进入下载页面,下载页面中提供了几个下载选项,主要是Spark release及Package type的选择,如下图所示。
我这里下的是Spark 2.4.0版本,没有此版本的,也可以下载Spark 3.2.4或更高版本的。
2、解压安装包spark-2.4.0-bin-without-hadoop.tgz至路径 /usr/local
[root@bigdata uploads]# tar -zxvf spark-2.4.0-bin-without-hadoop.tgz -C /usr/local
更改文件目录名:
[root@bigdata local]# mv spark-2.4.0-bin-without-hadoop/ spark
(四)配置相关文件
1、配置Spark的classpath
先切换到 /usr/local/spark/conf 目录下,复制spark-env.sh.template重命名为spark-env.sh。
[root@bigdata local]# cd /usr/local/spark/conf
[root@bigdata conf]# cp spark-env.sh.template spark-env.sh
[root@bigdata conf]# ll
总用量 44
-rw-r--r-- 1 zhc zhc 996 10月 29 2018 docker.properties.template
-rw-r--r-- 1 zhc zhc 1105 10月 29 2018 fairscheduler.xml.template
-rw-r--r-- 1 zhc zhc 2025 10月 29 2018 log4j.properties.template
-rw-r--r-- 1 zhc zhc 7801 10月 29 2018 metrics.properties.template
-rw-r--r-- 1 zhc zhc 865 10月 29 2018 slaves.template
-rw-r--r-- 1 zhc zhc 1292 10月 29 2018 spark-defaults.conf.template
-rwxr-xr-x 1 root root 4221 12月 13 20:23 spark-env.sh
-rwxr-xr-x 1 zhc zhc 4221 10月 29 2018 spark-env.sh.template
[root@bigdata conf]# vi spark-env.sh
将如下内容加到spark-env.sh文件的第一行。
export SPARK_DIST_CLASSPATH=$(/usr/local/servers/hadoop/bin/hadoop classpath)
实现了Spark和Hadoop的交互。
2、配置 /etc/profile 文件
将如下内容添加到 /etc/profile 文件最后,并使其生效。
[root@bigdata conf]# vi /etc/profile
[root@bigdata conf]# source /etc/profile
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.7-src.zip:$PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$HADOOP_HOME/bin:$SPARK_HOME/bin:$PATH
如下图所示。
至此,Spark环境就安装配置好了。
输入实例SparkPi验证Spark环境。为了从大量的输出信息中快速找到我们想要的自行结果,可以使用grep命令进行过滤。命令如下:
[root@bigdata spark]# run-example SparkPi 2>&1 |grep "Pi is"