简介
Apache Spark是一个开源的大数据处理框架,提供了高性能、通用的分布式数据处理能力。而YARN(Yet Another Resource Negotiator)是Hadoop生态系统的资源管理器,用于分配和管理集群资源。Spark on YARN是将Spark框架与YARN集成,以便更好地利用集群资源进行分布式计算。
安装部署
解压安装包
tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module
配置环境变量
vi /etc/profile
export SPARK_HOME=/opt/module/spark-3.1.1-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin
source /etc/profile
修改hadoop配置文件
vi /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
分发配置文件
scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata2:/opt/module/hadoop-3.1.3/etc/hadoop/
scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata3:/opt/module/hadoop-3.1.3/etc/hadoop/
修改conf/spark-env.sh,添加 YARN_CONF_DIR 配置
cd /opt/module/spark-3.1.1-bin-hadoop3.2/conf/
vi spark-env.sh
export YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
重启hadoop
stop-all.sh
start-all.sh
提交测试
# 使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi
spark-submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar
标签:opt,hadoop,module,etc,Yarn,3.1,spark,Spark
From: https://www.cnblogs.com/zyanch/p/17969941