简介

Apache Spark是一个开源的大数据处理框架，提供了高性能、通用的分布式数据处理能力。而YARN（Yet Another Resource Negotiator）是Hadoop生态系统的资源管理器，用于分配和管理集群资源。Spark on YARN是将Spark框架与YARN集成，以便更好地利用集群资源进行分布式计算。

安装部署

解压安装包

tar -zxvf spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module

配置环境变量

vi /etc/profile

export SPARK_HOME=/opt/module/spark-3.1.1-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin

source /etc/profile

修改hadoop配置文件

vi /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

分发配置文件

scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata2:/opt/module/hadoop-3.1.3/etc/hadoop/
scp -r /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml bigdata3:/opt/module/hadoop-3.1.3/etc/hadoop/

修改conf/spark-env.sh，添加 YARN_CONF_DIR 配置

cd /opt/module/spark-3.1.1-bin-hadoop3.2/conf/
vi spark-env.sh

export YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop

重启hadoop

stop-all.sh
start-all.sh

提交测试

# 使用spark on yarn 的模式提交$SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar 运行的主类为org.apache.spark.examples.SparkPi
spark-submit --master yarn --class org.apache.spark.examples.SparkPi  $SPARK_HOME/examples/jars/spark-examples_2.12-3.1.1.jar

标签：opt,hadoop,module,etc,Yarn,3.1,spark,Spark
From： https://www.cnblogs.com/zyanch/p/17969941

python-pyspark数据输入
数据容器转rdd对象通过SparkContext对象的parallelize成员方法，将python数据容器转为rdd对象frompysparkimportSparkConf,SparkContextconf=SparkConf().setMaster("local[*]").setAppName("test_spark_app")sc=SparkContext(conf=conf)data1=[1,2,3,4,5]data2=(1......
Spark
ApacheSpark是专门为大数据处理而设计的通用的计算引擎。spark拥有MapReduce所具有的优点，但不同于MapReduce的是Job中间输出结果可以缓存到内存中，从而不再需要读写HDFS，减少磁盘数据交互，因此Spark能更好的适应机器学习和数据挖掘等需要迭代的算法。Spark提供了SparkRDD、Spar......
实验三Spark 读取文件系统的数据
Spark读取文件系统的数据（1）在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”，然后统计出文件的行数；（2）在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”（如果该文件不存在，请先创建），然后，统计出文件的行数；（3）编写独立应用程序，读取HDFS系统文件“/u......
SparkStreaming 连接 Kafka数据源
本文的前提条件:SparkStreaminginJava参考地址：SparkStreaming+KafkaIntegrationGuide(Kafkabrokerversion0.10.0orhigher)1.添加POM依赖<dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>......
SparkStreaming 自定义数据采集器
本文的前提条件:SparkStreaminginJava参考地址：SparkStreamingCustomReceivers1.自定义数据采集器packagecn.coreqi.receiver;importorg.apache.spark.storage.StorageLevel;importorg.apache.spark.streaming.receiver.Receiver;importjava.util.Random;/**......
SparkStreaming in Java
参考地址：SparkStreamingProgrammingGuide1.新建Maven项目,POM引入依赖<dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming_2.13</artifactId><version>3.5.0</ve......
【不起作用】限制前端项目安装依赖的工具只能是：npm、yarn、pnpm中的一个
前言安装依赖的工具有好几个，有时候我们在多个项目之间切换时，容易忘记，所以我们需要设置某个项目只能使用某一种依赖安装工具正文方案一（不推荐）本方案仅供提示作用，并不会强制限制首先项目根目录下新建一个.npmrc文件，内容为：engine-strict=true然后修改项目的package.js......
Spark Thrift Server
SparkThriftServer是Spark社区基于HiveServer2实现的一个Thrift服务协议和接口同HiveServer2完全一致，无缝兼容HiveServer2目的是取代HiveServer2，依旧可以和Hive的Metastore进行交互，获取Hive元数据部署SparkThriftServer后，可以直接使用Hive的Beeline客户端工具访问SparkThr......
SparkSQL 操作Hive In Java
本文的前提条件:SparkSQLinJava1.增加POM依赖<dependency><groupId>com.mysql</groupId><artifactId>mysql-connector-j</artifactId><version>8.0.33</version></dependenc......
SparkSQL 操作Hive
Spark中本身内置了Hive，但一般用于测试，生产环境中需要连接外置的Hive1.将Hive的配置文件hive-site.xml拷贝到Spark的配置目录下cp/usr/hive/apache-hive-3.1.3-bin/conf/hive-site.xml/usr/spark/spark-3.5.0-bin-hadoop3/conf2.将MysqlJDBC驱动放置在Spark的jars目录下1.......

Spark on Yarn

简介