Spark（六）运行模式（二）

时间：2024-09-23 16:47:57浏览次数：10

标签：opt hadoop102 yarn module conf spark 模式 Spark 运行

Yarn模式

1、解压缩文件

[user@hadoop102 software]$ tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/module
[user@hadoop102 software]$ cd /opt/module
[user@hadoop102 module]$ mv spark-3.0.0-bin-hadoop3.2 spark-yarn

2、修改配置文件

（1）修改hadoop配置文件/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml, 并分发

<!--是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
 <name>yarn.nodemanager.pmem-check-enabled</name>
 <value>false</value>
</property>
<!--是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true -->
<property>
 <name>yarn.nodemanager.vmem-check-enabled</name>
 <value>false</value>
</property>

xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

（2）修改conf/spark-env.sh，添加JAVA_HOME和YARN_CONF_DIR配置

export JAVA_HOME=/opt/module/jdk1.8.0_212
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
export SPARK_MASTER_IP=192.168.10.102

（3）重新加载环境变量

source /opt/module/spark-yarn/conf/spark-env.sh

3、启动HDFS以及YARN集群

myhadoop.sh start

4、提交应用

[user@hadoop102 spark-yarn]$ bin/spark-submit \
> --class org.apache.spark.examples.SparkPi \
> --master yarn \
> --deploy-mode cluster \
> ./examples/jars/spark-examples_2.12-3.0.0.jar \
> 10

查看历史记录

5、配置历史服务器

（1）修改spark-defaults.conf.template文件名为spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

（2）修改spark-default.conf文件，配置日志存储路径

spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop102:8020/directory

（3）修改spark-env.sh文件, 添加日志配置

export SPARK_HISTORY_OPTS="
-Dspark.history.ui.port=18080 
-Dspark.history.fs.logDirectory=hdfs://hadoop102:8020/directory 
-Dspark.history.retainedApplications=30"

（4）修改spark-defaults.conf

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

（5）启动历史服务

sbin/start-history-server.sh

端口号

Spark查看当前Spark-shell运行任务情况端口号：4040（计算）
Spark Master内部通信服务端口号：7077
Standalone模式下，Spark Master Web端口号：8080（资源）
Spark历史服务器端口号：18080
Hadoop YARN任务运行情况查看端口号：8088

标签：opt,hadoop102,yarn,module,conf,spark,模式,Spark,运行
From： https://www.cnblogs.com/shihongpin/p/18426863

代理模式 - 动态代理
动态代理的APIProxy动态代理类生成代理对象：Proxy.newProxyInstance(类加载器，接口数组，处理器)类加载器：对象.getClass().getClassLoader()接口数组-被代理类的所有接口：被代理对象.getClass().getInterfaces()处理器：代理对象调用方法时，会被处理器拦截InvocationHa......
云设计模式介绍
云设计模式介绍以及它们如何帮助应对分布式计算的谬误作为构建分布式系统的软件工程师，我们经常遇到诸如不可靠的网络、延迟问题和安全问题等挑战。"分布式计算的谬误"描述了如果未解决，可能导致系统故障的常见误解。但认识到这些陷阱只是开始。真正的问题是：我们如何有效地克......
基于django+vue基于O2O模式的外卖订餐系统【开题报告+程序+论文】-计算机毕设
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展，电子商务已渗透到人们生活的方方面面，其中外卖订餐系统作为“互联网+餐饮”的典型代表，近年来在全球范围内迅速崛......
MVC 架构模式
目录MVC（Model-View-Controller）架构模式是一种软件设计模式，常用于开发用户界面，特别是Web应用程序。MVC模式将应用程序分为三个核心组件，目的是实现用户界面（UI）与业务逻辑的分离，以及提高代码的可维护性和可重用性。这三个核心组件分别是：模型（Model）：模型代表了应用程序的数据层和......
idea运行java项目main方法报build failure错误的解决方法BR
当在使用IntelliJIDEA运行Java项目的main方法时遇到"BuildFailure"错误，这通常意味着在项目的构建过程中遇到了问题。解决这类问题通常需要系统地检查和调整项目设置、代码、依赖项等多个方面。以下是一些详细的解决步骤，以及一个简单的代码示例，用于展示如何确保Java程......
[答疑]《分析模式》2020中译本翻译水平怎样
DDD领域驱动设计批评文集做强化自测题获得“软件方法建模师”称号《软件方法》各章合集albert2024-9-1920:16学习了多集您做的分析模式视频，发现在比对环节2004版普遍比2020版正确。是否可以得出结论2004版本更好？我现在学习用2020版，是否需要找一个老版本，或者老师推荐一些......
Spark（五）运行环境（一）
Local模式不需要其他任何节点资源就可以在本地执行Spark代码的环境，一般用于教学，调试，演示等在IDEA中运行代码的环境称之为开发环境1、解压缩文件将spark-3.0.0-bin-hadoop3.2.tgz文件上传到Linux并解压缩，放置在指定位置，路径中不要包含中文或空格压缩文件放在'/opt/software......
dnsclientpsprovider.dll文件丢失导致程序无法运行问题
其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库，这时你可以下载这个dnsclientpsprovider.dll文件(挑选合适的版......
dmwappushsvc.dll文件丢失导致程序无法运行问题
其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库，这时你可以下载这个dmwappushsvc.dll文件(挑选合适的版本文件)......
dmpushproxy.dll文件丢失导致程序无法运行问题
其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库，这时你可以下载这个dmpushproxy.dll文件(挑选合适的版本文件)把......