前言
Spark有五种运行模式,分别是 Local 模式、Standalone 模式、YARN 模式、Mesos 模式和Kubernetes模式。
Local 模式(本地)
Local模式是Spark运行在本地机器上,利用本地资源进行计算。这种模式通常用于测试和调试,因为它不需要其他节点资源,适合在开发环境中使用。
Standalone 模式(集群)
Standalone模式是Spark自带的资源调度系统,支持完全分布式。在这种模式下,Spark有自己的Master和Worker节点,负责资源的调度和管理。Standalone模式分为Client模式和Cluster模式,Client模式下Driver运行在Master节点上,而Cluster模式下Driver运行在Worker节点上。
YARN 模式(集群)
YARN模式是Hadoop的资源调度框架,Spark也可以运行在YARN上。在这种模式下,Spark可以利用YARN的资源管理功能,分为Client模式和Cluster模式。YARN模式在大数据处理中非常常见,适合生产环境使用。
Mesos 模式(集群)
Mesos模式是Apache Mesos提供的资源管理和调度框架,Spark也可以运行在Mesos上。这种模式适合需要跨多个框架共享资源的场景。
Kubernetes 模式(集群)
Kubernetes模式是容器编排工具,Spark可以运行在Kubernetes上。这种模式适合微服务架构和容器化部署的环境。
适用场景
-
Local模式:适用于开发和测试,不需要其他节点资源。
-
Standalone模式:适用于需要内部资源调度的场景,配置和维护相对简单。
-
YARN模式:适用于生产环境,可以利用Hadoop集群的资源。
-
Mesos模式:适用于需要跨多个框架共享资源的场景。
-
Kubernetes模式:适用于容器化部署和微服务架构的环境。
每种模式都有其适用场景和优缺点,选择合适的运行模式可以根据具体的需求和环境来决定。
本文分享的是 Spark 在本地环境下的搭建(单机模式)!!!
需要安装 Spark 和 Anaconda 两部分。。。
一、Spark下载
官方下载地址:Apache Spark™ - Unified Engine for large-scale data analytics
本文使用的是 spark-3.1.2-bin-hadoop3.2.tgz 版本
二、安装 Spark 步骤
1. 上传安装包到 /opt/modules
cd /opt/modules
2. 解压安装包到 /opt/installs
tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /opt/installs
3. 在 /opt/installs 目录下重命名文件夹为 spark-local
cd /opt/installs
mv spark-3.1.2-bin-hadoop3.2 spark-local
4. 创建软链接
ln -s spark-local spark
5. 配置环境变量
vi /etc/profile
# 配置内容如下
export SPARK_HOME=/opt/installs/spark
export PATH=$SPARK_HOME/bin:$PATH
通过 Anaconda 部署 Python
Anaconda 这个软件不仅有 Python 还具有资源环境隔离功能,方便基于不同版本不同环境进行测试开发,比单纯安装 Python 功能要强大。
三、Anaconda 下载
下载链接:https://repo.anaconda.com/archive/
本文使用的是 Anaconda3-2021.05-Linux-x86_64.sh 版本
四、安装 Anaconda 步骤
1. 上传安装包到 /opt/modules
cd /opt/modules
2. 运行安装包
#添加执行权限
chmod u+x Anaconda3-2021.05-Linux-x86_64.sh
#执行
sh ./Anaconda3-2021.05-Linux-x86_64.sh
#过程
#第一次:【直接回车,然后按q】
Please, press ENTER to continue
>>>
#第二次:【输入yes】
Do you accept the license terms? [yes|no]
[no] >>> yes
#第三次:【输入解压路径:/opt/installs/anaconda3】
[/root/anaconda3] >>> /opt/installs/anaconda3
#第四次:【输入yes,是否在用户的.bashrc文件中初始化Anaconda3的相关内容】
Do you wish the installer to initialize Anaconda3
by running conda init? [yes|no]
[no] >>> yes
3. 刷新环境变量
source /root/.bashrc
4. 激活虚拟环境
# 打开
conda activate
# 关闭
conda deactivate
5. 配置环境变量并刷新
# 编辑环境变量
vi /etc/profile
# 添加以下内容
# Anaconda Home
export ANACONDA_HOME=/opt/installs/anaconda3
export PATH=$PATH:$ANACONDA_HOME/bin
# 刷新环境变量
source /etc/profile
6. 创建软链接
ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3
五、测试使用
# 启动Python开发Spark的交互命令行
# --master:用于指定运行的模式
# local[2]:使用本地模式,并且只给2CoreCPU来运行程序
/opt/installs/spark/bin/pyspark --master local[2]
六、案例:求PI
/opt/installs/spark/bin/spark-submit --master local[2] /opt/installs/spark/examples/src/main/python/pi.py 100
标签:opt,bin,单机,installs,模式,Spark,spark,搭建
From: https://blog.csdn.net/2403_86969226/article/details/143634476