首页 > 其他分享 >spark的SparkSubmit类关于Configuration的资源文件加载

spark的SparkSubmit类关于Configuration的资源文件加载

时间:2024-08-31 16:14:56浏览次数:9  
标签:xml site yarn SparkSubmit JobConf spark Configuration 加载

在阅读 SparkSubmit 源代码时,重点关注 Configuration 的资源文件的加载情况,默认通过 new Configuration() 构造方法创建时,只会加载 core-default.xml 和core-site.xml文件,但是 SparkSubmit 中打印 Configuration 时,发现还会加载 yarn-site.xmlSparkSubmit 代码中没有看到显示加载 yarn-site.xml 的地方,那 yarn-site.xml 从哪里加载进来的? 跟进 SparkSubmit 源代码,找到关键代码 lazy val secMgr = new SecurityManager(sparkConf), secMgr懒初始化,触发了 yarn-site.xml 的加载。如下图所示: spark 的 SparkSubmit 类关于 Configuration 的资源文件加载
 
跟进 new SecurityManager(sparkConf),打印yarn-site.xml 的相关堆栈,如下所示:
  spark 的 SparkSubmit 类关于 Configuration 的资源文件加载
上述的关键代码,org.apache.hadoop.mapred.JobConf.(JobConf.java:119),打开 JobConf 这个类,如下图:
  spark 的 SparkSubmit 类关于 Configuration 的资源文件加载  
继续打开 ConfigUtil.loadResources(),如下图,在ConfigUtil 中显示加载了yarn-site.xml。 spark 的 SparkSubmit 类关于 Configuration 的资源文件加载
欢迎关注公众号和访问网站,了解更多技术资讯: spark 的 SparkSubmit 类关于 Configuration 的资源文件加载 谷百特博客

标签:xml,site,yarn,SparkSubmit,JobConf,spark,Configuration,加载
From: https://www.cnblogs.com/goubyte/p/18390427

相关文章

  • Pyspark中的ROW对象使用
    文章目录Pyspark中的Row对象使用Row对象介绍Row对象创建使用Row对象创建DataFrameDataFrame转换为row对象Row对象包含的方法asDict()count()index()Pyspark中的Row对象使用Row对象介绍在PySpark中,Row对象是DataFrame的基本组成单元,它封装了DataFrame中的每一行数......
  • Spark MLlib模型训练—回归算法 Decision tree regression
    SparkMLlib模型训练—回归算法Decisiontreeregression在机器学习中,决策树是一种常用且直观的模型,广泛应用于分类和回归任务。决策树回归(DecisionTreeRegression)通过将数据集分割成多个区域,构建一棵树形结构,以预测目标变量的连续值。本文将详细探讨Spark中的决......
  • Spark MLlib模型训练—回归算法 GLR( Generalized Linear Regression)
    SparkMLlib模型训练—回归算法GLR(GeneralizedLinearRegression)在大数据分析中,线性回归虽然常用,但在许多实际场景中,目标变量和特征之间的关系并非线性,这时广义线性回归(GeneralizedLinearRegression,GLR)便应运而生。GLR是线性回归的扩展,能够处理非正态分布的目标......
  • net core自定义 Configuration Provider
    创建CustomConfigurationProvider首先,我们需要创建一个自定义的ConfigurationSource和ConfigurationProvider来支持配置文件的读取和监控。publicclassCustomConfigurationSource:IConfigurationSource{publicstringFilePath{get;}publicCustomConfig......
  • SparkSQL日期时间模式详解
    datatime使用场景CSV/JSON数据源使用模式字符串来解析和格式化日期时间内容。日期时间函数用于转换StringType类型到DateType或TimestampType类型,反之亦然。例如,unix_timestamp,date_format,to_unix_timestamp,from_unixtime,to_date,to_timestamp,from_utc_timestam......
  • SparkSQL数值模式详解
    简介函数如to_number和to_char确实支持在字符串类型和十进制(数值)类型之间进行转换。这些函数接受格式字符串作为参数,这些格式字符串指示了如何在这两种类型之间映射。to_number:这个函数通常用于将字符串转换成数值类型。你需要提供一个格式字符串来指定如何解释字符串......
  • 计算机毕业设计Spark+Tensorflow股票推荐系统 股票预测系统 股票可视化 股票数据分析
    1. 需求分析基于Spark的股票大数据分析及可视化系统是一个利用Spark分布式计算框架进行股票市场数据处理、分析和可视化的系统。它能够处理大规模的实时股票数据,包括股票价格、交易量、市场指标等,提供实时数据处理、数据可视化与展示和并提供相应决策支持。因此基于Spark的......
  • 计算机毕业设计Hadoop+Hive地震预测系统 地震数据分析可视化 地震爬虫 大数据毕业设计
    目录1绪论2 相关技术与工具2.1 大数据技术概述2.2 hadoop介绍3地震数据分析3.1数据收集与处理4地震数据可视化4.1可视化技术概述4.2可视化设计原则4.3可视化实现与评估5系统设计与实现5.1登录页面5.25.3地震数据分析页面5.4地......
  • 在Kotlin中使用Spark SQL的UDF和UDAF函数
    1.项目结构与依赖1.1项目依赖使用gradle:在项目的build.gradle.kts添加dependencies{  implementation("org.apache.spark:spark-sql_2.12:3.3.1")}使用maven:在模块的pom.xml中添加<dependency><groupId>org.apache.spark</groupId>......
  • Spark MLlib 特征工程系列—特征转换SQLTransformer
    SparkMLlib特征工程系列—特征转换SQLTransformer1.什么是SQLTransformerSQLTransformer是Spark提供的一个特征转换工具,它允许你通过SQL查询来对数据进行灵活的转换。使用SQLTransformer,你可以直接在DataFrame上编写SQL语句,进行特征工程或数据预处理。这种......