首页 > 其他分享 >大数据面试题

大数据面试题

时间:2023-04-03 11:24:26浏览次数:25  
标签:面试题 java 区别 基础 hive spark 数据

目录

大数据面试题

纯技术部分

java相关面试题

  1. java面向对象的特征【基础】
  2. java的final, finally, finalize 的区别【基础】
  3. java中重载和重写的区别【基础】
  4. java中Arraylist 与 LinkedList 区别【基础】
  5. java中接口和抽象类的区别【基础】
  6. java中sleep() 和wait() 有什么区别?【基础】
  7. java线程的创建方式
  8. java线程的生命周期
  9. CAS是悲观锁还是乐观锁
  10. 谈谈jvm的理解
  11. 说说 CountDownLatch 与 CyclicBarrier 区别【难】

scala相关面试题

  1. 谈谈scala的伴生对象【基础】
  2. scala隐式转换的关键字【基础】
  3. scala的特质和抽象类有什么区别【基础】
  4. scala的闭包和柯里化

数据库相关面试题【重要】

  1. 数据库的隔离级别【基础】
  2. left join、right join和join的区别【基础】
  3. 数据库中那些会引起全表扫描的sql语法或者说索引失效【基础】
  4. mysql的存储引擎
  5. 聚集索引与非聚集索引的区别【难】

数仓相关面试题

  1. 谈谈对数仓的认识【基础】
  2. 数仓中常见的表的种类【基础】
  3. 拉链表实现方式
  4. 常用的数仓建模模型
  5. 谈谈数仓和数据库的不同

数据迁移 spark

Linux相关面试题

  1. Linux常用命令【基础】
  2. 查看一个端口被占用的命令【基础】
  3. 杀死一个进程用什么命令【基础】

hive相关面试题【重要】

  1. hive的运行原理【基础】
  2. hiveSql常见优化【必问】
  3. hive的udf函数【基础】
  4. hive的窗口函数有没有用过【基础】
  5. hive的rownumber函数用过吗【基础】
  6. hive的外部表和内部表的区别【基础】
  7. hive的任务数据倾斜怎么办【必问】
  8. 之前的hive版本是多少
  9. hive使用parquet压缩有什么好处
  10. hive是否支持update?
  11. hive的分区和分桶是否了解
  12. hive的sort by 和order by的区别【难】
  13. YRAN的三种调度策略【基础】

kafaka相关面试题

  1. 为什么要使用 kafka? kafka的优点是什么?【基础】
  2. Kafka 是如何做到消息的有序性?【基础】
  3. kafka数据怎么保证不丢失
  4. 讲一讲kafka的ack的三种机制
  5. Kafka消息队列堆积问题【难】
  6. kafka producer如何优化写入速度?【难】

spark相关面试题

  1. spark的常见算子【基础】
  2. spark的广播变量和累加器是用在什么场景【基础】
  3. spark划分stage的依据【基础】
  4. spark的 foreach和foreachPartition的区别【基础】
  5. sparkjob提交后任务执行流程【必问】
  6. 读过spark的哪些源码【必问】
  7. spark的容错机制
  8. spark比hive运行快的原因
  9. SparkStreaming连接Kafka的两种方式、对比一下
  10. Spark的shuffle有几种方式,默认的是什么
  11. Spark调优
  12. spark任务提交方式?driver和cluster client的区别
  13. spark任务失败了怎么办?
  14. spark的RDD 中 reducebyKey 与 groupByKey 区别【难】

Hbase相关面试题

  1. hbase的读写流程【基础】
  2. 谈谈对hbase的理解
  3. 如何提高hbase的写入能力【难】

其他面试题

  1. 常见的数据结构有哪些?
  2. 大数据技术栈还用过哪些?
  3. docker有没有使用过?
  4. cdh是否用过?impala?Doris?
  5. flink有没有用过?
  6. Elastic Search用过没?
  7. Git和Svn用过没?
  8. springboot用过没?springcloud是否用过?
  9. streamsets是否用过?

标签:面试题,java,区别,基础,hive,spark,数据
From: https://www.cnblogs.com/edclol/p/17282555.html

相关文章

  • 时序数据库
    时序数据库1.常用数据库排名db-engines网站https://db-engines.com/en/ranking/time+series+dbms2.系统属性比较NameClickHouseXTDengineXPrometheusXInfluxDBXTimescaleDBX描述Column-orientedRelationalDBMSpoweringYandexTimeSerie......
  • Greenplum数据库连接
    Greenplum数据库连接maven配置<!--https://mvnrepository.com/artifact/org.postgresql/postgresql--><dependency><groupId>org.postgresql</groupId><artifactId>postgresql</artifactId><version>42.1.4</vers......
  • 数据集函数sum与单元格函数sum怎么用?
    数据集函数sum与单元格函数sum怎么用?在皕杰报表的函数中,数据集函数和单元格函数都有sum求和函数,但其用法是不同的。我们先看两个函数的说明: 数据集函数sum函数说明:从数据集中,从满足条件的记录中,算出给定字段或表达式的总和语法:datasetName.sum(selectExp{,filterExp{,isRootGroup......
  • 如何实现智能制造工业设备数据采集与MES系统对接
    MES系统是一套面向制造业工厂打造的生产信息管理系统,为企业提供制造数据管理、计划日程管理、生产调度管理、库存管理、设备管理、成本管理、生产过程控制、数据集成分析等实用功能,是各制造业厂商广泛应用的系统平台。工业现场存在多种工业设备和通信协议,对MES系统的信息集成造成一......
  • Python爬虫之数据写入
    Python爬虫实现爬取网站是如何进行数据写入保存的?今天我将利用我所学的知识把写入数据的一些代码教程供大家参考。Python爬虫之数据写入#写入到Excelimportxlsxwriter#创建文件,并添加一个工作表workbook=xlsxwriter.Workbook('demo.xlsx')worksheet=workbook.add_worksheet()......
  • Python爬虫之数据写入
    Python爬虫实现爬取网站是如何进行数据写入保存的?今天我将利用我所学的知识把写入数据的一些代码教程供大家参考。Python爬虫之数据写入#写入到Excelimportxlsxwriter#创建文件,并添加一个工作表workbook=xlsxwriter.Workbook('demo.xlsx')worksheet=workbook.add_worksh......
  • Micro-Estimates of Wealth for all Low 数据搜集
    Micro-EstimatesofWealthforallLow-andMiddle-IncomeCountries1.Thefirsttestusesdatafrom15LMICsthathavecollectedandpublishedcensusdatasince2001(SIAppendix,TableS3).Thesedatacontaincensussurveyresponsesfrom27millionuniq......
  • 逍遥自在学C语言 | 变量、常量与数据类型
    前言一、人物简介第一位闪亮登场,有请今后会一直教我们C语言的老师——自在。第二位上场的是和我们一起学习的小白程序猿——逍遥。二、基本数据类型1、整型C语言中的整型数据如下表所示:数据类型含义长度(字节)取值范围(有符号)取值范围(无符号)shor......
  • 【测试】主流数据库存储过程编写样例(Oracle、MySQL、SQL Server)
    这个...做测试其实有时候还是需要先弄点数据才好针对某些功能进行测试的(相信做过开发的都应该深有体会)。一般像我这种老油条都推荐使用存储过程来做的初始化数据,一来脚本不会骗人,二来可以通过另一种方式验证逻辑关系。下面将整理了三个主流数据库(Oracle、MySQL和SQLServer)的“单表......
  • 大数据学习之Hbase shell的基本操作
    HBase的命令行工具,最简单的接口,适合HBase管理使用,可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后,启动hadoop集群(利用hdfs存储),启动zookeeper,使用start-hbase.sh命令开启hbase服务,最后在shell中执行hbaseshell就可以进入命令行界面Habseshell的help对语法的介绍......