首页 > 其他分享 >大数据面试题——spark

大数据面试题——spark

时间:2022-12-12 21:36:04浏览次数:37  
标签:面试题 data RDD 内存 算子 spark 数据 Spark


文章目录

  • ​​讲一下spark 的运行架构​​
  • ​​一个spark程序的执行流程​​
  • ​​讲一下宽依赖和窄依赖​​
  • ​​spark的stage是如何划分的​​
  • ​​Spark的 RDD容错机制。​​
  • ​​checkpoint 检查点机制?​​
  • ​​RDD、DAG、 Stage、 Task 、 Job​​
  • ​​Spark的shuffle介绍​​
  • ​​Spark为什么快,Spark SQL 一定比 Hive 快吗​​
  • ​​Spark的 partitioner 都有哪些?/RDD的分区函数​​
  • ​​Spark运行模式(资源调度框架的使用,了解)​​
  • ​​Spark中的算子都有哪些​​
  • ​​1. Value数据类型的Transformation算子​​
  • ​​2. Key-Value数据类型的Transfromation算子​​
  • ​​3. Action算子​​
  • ​​RDD 中 reduceBykey 与 groupByKey 哪个性能好,为什么​​
  • ​​RDD 持久化原理?​​
  • ​​checkpoint 和持久化机制的区别?​​
  • ​​RDD懒加载是什么意思​​
  • ​​RDD有哪些特点​​
  • ​​spark 解决了 hadoop 的哪些问题(spark VS MR)?​​
  • ​​spark有哪几种join​​
  • ​​hadoop 和 spark 的相同点和不同点?​​
  • ​​如何将spark-sql的Row转成Java对象?​​
  • ​​--------------------------------​​
  • ​​Spark SQL三种join​​
  • ​​数据倾斜的产生和解决办法?​​
  • ​​Spark 主备切换机制原理知道吗?​​
  • ​​RDD的缓存级别都有哪些​​
  • ​​讲一下spark的几种部署方式​​
  • ​​spark on yarn 模式下的 cluster模式和 client模式有什么区别​​
  • ​​spark2.0为什么放弃了akka 而用netty​​
  • ​​spark的各种HA, master/worker/executor的ha​​
  • ​​Master异常​​
  • ​​Worker异常​​
  • ​​Executor异常​​
  • ​​spark的内存管理机制​​
  • ​​1.6版本以前的问题​​
  • ​​新方案的改进​​
  • ​​spark中的广播变量​​
  • ​​问题:为什么只能 broadcast 只读的变量?​​
  • ​​问题:broadcast 到节点而不是 broadcast 到每个 task?​​
  • ​​问题: 具体怎么用 broadcast?​​
  • ​​问题:怎么实现 broadcast?​​
  • ​​1. 分发 task 的时候先分发 bdata 的元信息​​
  • ​​2. HttpBroadcast​​
  • ​​3. TorrentBroadcast​​
  • ​​driver 端:​​
  • ​​Executor 端:​​
  • ​​问题:broadcast RDD 会怎样?​​
  • ​​Discussion​​
  • ​​什么是数据倾斜,怎样去处理数据倾斜​​
  • ​​数据倾斜主要分为两类: 聚合倾斜 和 join倾斜​​
  • ​​分析一下一段spark代码中哪些部分在Driver端执行,哪些部分在Worker端执行​​
  • ​​三种Writer的分类​​

讲一下spark 的运行架构

大数据面试题——spark_持久化

标签:面试题,data,RDD,内存,算子,spark,数据,Spark
From: https://blog.51cto.com/hiszm/5931867

相关文章