文章目录
- 讲一下spark 的运行架构
- 一个spark程序的执行流程
- 讲一下宽依赖和窄依赖
- spark的stage是如何划分的
- Spark的 RDD容错机制。
- checkpoint 检查点机制?
- RDD、DAG、 Stage、 Task 、 Job
- Spark的shuffle介绍
- Spark为什么快,Spark SQL 一定比 Hive 快吗
- Spark的 partitioner 都有哪些?/RDD的分区函数
- Spark运行模式(资源调度框架的使用,了解)
- Spark中的算子都有哪些
- 1. Value数据类型的Transformation算子
- 2. Key-Value数据类型的Transfromation算子
- 3. Action算子
- RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么
- RDD 持久化原理?
- checkpoint 和持久化机制的区别?
- RDD懒加载是什么意思
- RDD有哪些特点
- spark 解决了 hadoop 的哪些问题(spark VS MR)?
- spark有哪几种join
- hadoop 和 spark 的相同点和不同点?
- 如何将spark-sql的Row转成Java对象?
- --------------------------------
- Spark SQL三种join
- 数据倾斜的产生和解决办法?
- Spark 主备切换机制原理知道吗?
- RDD的缓存级别都有哪些
- 讲一下spark的几种部署方式
- spark on yarn 模式下的 cluster模式和 client模式有什么区别
- spark2.0为什么放弃了akka 而用netty
- spark的各种HA, master/worker/executor的ha
- Master异常
- Worker异常
- Executor异常
- spark的内存管理机制
- 1.6版本以前的问题
- 新方案的改进
- spark中的广播变量
- 问题:为什么只能 broadcast 只读的变量?
- 问题:broadcast 到节点而不是 broadcast 到每个 task?
- 问题: 具体怎么用 broadcast?
- 问题:怎么实现 broadcast?
- 1. 分发 task 的时候先分发 bdata 的元信息
- 2. HttpBroadcast
- 3. TorrentBroadcast
- driver 端:
- Executor 端:
- 问题:broadcast RDD 会怎样?
- Discussion
- 什么是数据倾斜,怎样去处理数据倾斜
- 数据倾斜主要分为两类: 聚合倾斜 和 join倾斜
- 分析一下一段spark代码中哪些部分在Driver端执行,哪些部分在Worker端执行
- 三种Writer的分类