首页 > 其他分享 >hive 、spark 、flink之想一想

hive 、spark 、flink之想一想

时间:2024-03-26 13:47:09浏览次数:26  
标签:什么 flink hive kafka sql spark

hive

1:hive是怎么产生的?

2:hive的框架是怎么样的?

3:hive 执行流程是什么?

4:hive sql是如何把sql语句一步一步到最后执行的?

5:hive sql任务常用参数调优做过什么?

spark

6:spark 是怎么产生的?

7:spark 框架是怎么样的?

8: spark的DAG是什么?

9:spark中的app,job,stage,task是什么?有什么好处?

10:spark的RDD是什么?与dataframe有什么区别?

11:spark 执行流程是什么?

12:spark sql是如何把sql语句一步一步到最后执行的?

13:spark 与mapreduce的区别是什么?

14: spark的反压原理是什么?主动还是被动?

flink

14:flink是怎么产生的?

15:flink的框架是怎么样的?

16:flink 的内存模型说一说?

17:flink的cp ,sp说一说原理,有什么区别?你们是怎么设置cp的相关参数?

18:flink的四个图是什么?分别都是什么环节对应什么图?

19:flink反压机制,你是如何理解的?你是如何定位、并有什么方案解决?与spark的反压有什么区别?

20:flink的barrier对齐和非对齐是怎么理解的?

21:flink的精准一次和至少一次是怎么理解的?

22:flink任务消费或者写入kafka时,并行度不一致有什么问题?

23:flink如何保证数据一致性?

24:flink对于kafka新增分区时,消费有什么问题吗?

25:flink消费kafka的offset是怎么维护的?自动提交?

26:flink任务如何设置TM,JM的并行度?

27:flink任务做过什么调优?

28:flink任务大状态时做过什么优化?

29:你们用flink做过实时数仓吗?你们的上下游的环境都是什么?全链路时效是多少?

标签:什么,flink,hive,kafka,sql,spark
From: https://www.cnblogs.com/Jcloud/p/18096493

相关文章

  • 在Flink 1.11中,assignTimestampsAndWatermarks方法已经被新的方法assignTimestamps和a
    在Flink1.11中,assignTimestampsAndWatermarks方法已经被新的方法assignTimestamps和assignWatermarks所替代。这是为了更好地将时间戳和水位线的定义分离开来以下是使用新API的示例代码:importorg.apache.flink.api.common.eventtime.WatermarkStrategy;importorg.apache.fli......
  • Flink 流数据处理 基于Flink1.12.0版本 MapFunction 只适用于一对一的转换,而 FlatMap
    Flink流数据处理基于Flink1.12.0版本MapFunction只适用于一对一的转换,而FlatMapFunction中可以一对多,或者多对一序言基于官网教程整理的一个教程。基于Flink1.12.0版本。目前该版本的Flink支持的source与sink如下所示参考资料:https://ci.apache.org/projects/flink......
  • Flink: Function And Rich Function , 对比 Function ,Rich functions还提供了这些方法:o
    Flink:FunctionAndRichFunction,对比Function,Richfunctions还提供了这些方法:open、close、getRuntimeContext和setRuntimeContext序言    了解了Flink提供的算子,那我们就可以自定义算子了.自定义算子的目的是为了更加灵活的处理我们的业务数据,并将满足条件......
  • Flink API的四层抽象级别是什么?能用实际项目案例讲解一下吗? Flink API的四层抽象级别
    FlinkAPI的四层抽象级别是什么?能用实际项目案例讲解一下吗?首先,FlinkAPI的四层抽象级别是指:最底层抽象:ProcessFunctionAPI、核心API:DataStreamAPI、TableAPI、SQL。这四个抽象级别可以比作烹饪中的不同方式,从简单的速食制作到复杂的大餐烹饪。1.最底层抽象:ProcessFunctionAP......
  • 【Flink】Flink如何覆盖系统类、优先加载用户类、child-first使用技巧
    1.概述一个问题,关于类加载的,就是我使用了flink-sql-connector-kafka的依赖,但是我改了这个类,和任务在一个jar包里面,flink-sql-connector-kafka.jar和Flink的lib中的jar在hdfs上,Flinkonyarn的方式提交作业,但是我改的这个类不生效(还是用的flink-sql-connector-kafka里面的......
  • Flink 架构深度解析
    Flink是一个开源的流处理框架,用于处理和分析实时数据流。它以其高吞吐量、低延迟和强大的状态管理能力而闻名。本文将深入探讨Flink的架构设计,帮助读者理解其内部工作原理。1.引言在当今的数据驱动世界中,实时数据处理变得越来越重要。Flink提供了一个高性能、可扩展的平......
  • 05-快速理解SparkSQL的DataSet
    1定义一个数据集是分布式的数据集合。Spark1.6增加新接口Dataset,提供RDD的优点:强类型、能够使用强大lambda函数SparkSQL优化执行引擎的优点可从JVM对象构造Dataset,然后函数式转换(map、flatMap、filter等)操作。DatasetAPI在Scala和Java中可用。Python不支持DatasetAPI,......
  • spark-shell(pyspark)单机模式使用和编写独立应用程序
    spark有四种部署方式:Local,Standalone,SparkonMesos,Sparkonyarn。第一个为单机模式,后三个为集群模式。spark-shell支持python和scala,这里使用python。1.启动pyspark环境在spark安装目录下./bin/pyspark进入之后,如下图: 2.编写程序新建代码文件WordCount.py,并编写程序......
  • 怎么把spark中的时间转换成天数
    目录怎么把Spark中的时间转换成天数1.创建SparkDataFrame2.将时间转换成天数3.结果展示数据准备和DataFrame创建时间转换成天数结果展示SparkDataFrame特点和优势:创建DataFrame:DataFrame操作:怎么把Spark中的时间转换成天数在Spark中,处理时间数据时经常需要......
  • Spark重温笔记(三):Spark在企业中为什么能这么强?——持久化、Checkpoint机制、共享变量与
    Spark学习笔记前言:今天是温习Spark的第3天啦!主要梳理了Spark核心数据结构:RDD(弹性分布式数据集),包括RDD持久化,checkpoint机制,spark两种共享变量以及spark内核调度原理,希望对大家有帮助!Tips:"分享是快乐的源泉......