大数据面试题——spark

时间：2022-12-12 21:36:04浏览次数：40

标签：面试题 data RDD 内存算子 spark 数据 Spark

文章目录

讲一下spark 的运行架构
一个spark程序的执行流程
讲一下宽依赖和窄依赖
spark的stage是如何划分的
Spark的 RDD容错机制。
checkpoint 检查点机制？

RDD、DAG、 Stage、 Task 、 Job

Spark的shuffle介绍
Spark为什么快，Spark SQL 一定比 Hive 快吗
Spark的 partitioner 都有哪些?/RDD的分区函数
Spark运行模式(资源调度框架的使用，了解)
Spark中的算子都有哪些

1. Value数据类型的Transformation算子
2. Key-Value数据类型的Transfromation算子
3. Action算子

RDD 中 reduceBykey 与 groupByKey 哪个性能好，为什么
RDD 持久化原理？
checkpoint 和持久化机制的区别？
RDD懒加载是什么意思
RDD有哪些特点
spark 解决了 hadoop 的哪些问题(spark VS MR)？
spark有哪几种join
hadoop 和 spark 的相同点和不同点？
如何将spark-sql的Row转成Java对象？
--------------------------------
Spark SQL三种join
数据倾斜的产生和解决办法？
Spark 主备切换机制原理知道吗？
RDD的缓存级别都有哪些
讲一下spark的几种部署方式
spark on yarn 模式下的 cluster模式和 client模式有什么区别
spark2.0为什么放弃了akka 而用netty
spark的各种HA, master/worker/executor的ha

Master异常
Worker异常
Executor异常

spark的内存管理机制

1.6版本以前的问题
新方案的改进

spark中的广播变量

问题：为什么只能 broadcast 只读的变量？
问题：broadcast 到节点而不是 broadcast 到每个 task？
问题：具体怎么用 broadcast？
问题：怎么实现 broadcast？

1. 分发 task 的时候先分发 bdata 的元信息
2. HttpBroadcast
3. TorrentBroadcast
driver 端：
Executor 端：

问题：broadcast RDD 会怎样?

Discussion
什么是数据倾斜,怎样去处理数据倾斜

数据倾斜主要分为两类: 聚合倾斜和 join倾斜

分析一下一段spark代码中哪些部分在Driver端执行,哪些部分在Worker端执行
三种Writer的分类

讲一下spark 的运行架构

大数据面试题——spark_持久化

标签：面试题,data,RDD,内存,算子,spark,数据,Spark
From： https://blog.51cto.com/hiszm/5931867

【数据结构-树】二叉树的相关算法
目录1计算二叉树中双分支结点的个数2交换二叉树中所有左右子树3求先序遍历第k个元素4删去值为x的子树5计算二叉树的带权路径长度（WPL）6将表达式树转化为等价的中缀......
10个经典又容易被人疏忽的JVM面试题
1.对象一定分配在堆中吗？有没有了解逃逸分析技术？「对象一定分配在堆中吗？」不一定的，JVM通过「逃逸分析」，那些逃不出方法的对象会在栈上分配。「什么是逃逸分析？」逃逸分析(E......
可视化界面之数据增删改查、django请求生命周期流程图、django路由层、反向解析
可视化界面之数据增删改查针对数据对象主键字段的获取可以使用更加方便的obj.pk获取在模型类中定义双下str方法可以在数据对象被执行打印操作的时候方便的查看'''for......
openGauss企业级开源数据库获第十届中国电子信息博览会金奖
2022年8月16日，在2022第十届中国电子信息博览会（ChinaInformaticaTechnologyExpo；英文简称“CITE”）期间，openGauss企业级开源数据库一举摘得本届中国电子信息博览会最高奖项......
空间数据库开源路，超图+openGauss风起禹贡
从上世纪70年代出现的地图制图与遥感图像处理开始，地理的信息化和数字化快速发展，其背后支撑的核心就是地理空间数据库。尤其是伴随着IoT、5G的广泛应用，从导航、快递、外卖到......
深度学习——制作自己的VOC图像分割数据集
OverridetheentrypointofanimageIntroducedinGitLabandGitLabRunner9.4.Readmoreaboutthe extendedconfigurationoptions.Beforeexplainingtheav......
MySQL数据库操作
基本操作mysql-uroot-p 连接数据库showdatabases 查看有什么库showtables查看有什么表use库名[进入库]desc表名......
phpMyAdmin给非技术人员一个查阅数据库的窗口
背景管理数据库的界面工具。开发团队中一般有非技术背景人员，比如：产品，功能测试人员；对他们来说，可能安装数据库管理工具客户端都很麻烦，需要一款在线的网页工具能方便他们......
可视化界面之数据增删改查、django请求生命周期流程图、django路由层、反向解析、
目录可视化界面之数据增删改查django请求生命周期流程图django路由层反向解析可视化界面之数据增删改查针对数据对象主键字段的获取可以使用更加方便的obj.pk获取在模......
可视化界面之数据增删改查、django请求生命周期流程图、django路由层、反向解析
可视化界面之数据增删改查针对数据对象主键字段的获取可以使用更加方便的obj.pk获取在模型类中定义双下str方法可以在数据对象被执行打印操作的时候方便的查看'''for......

大数据面试题——spark

文章目录

讲一下spark 的运行架构

相关文章

赞助商

阅读排行