首页 > 其他分享 >2023 Hive 面试大纲

2023 Hive 面试大纲

时间:2023-07-13 11:44:06浏览次数:46  
标签:多表 大纲 优化 分区 Hive 查询 2023 数据

先说一些废话

总结一下Hive面试宝典中的要点,方便读者快速过一遍Hive面试所需要的知识点。
本文请搭配 Hive面试宝典 来食用更美味哟 ┗( ▔, ▔ )┛

方便自己系统性回忆,根据*的数量来标记重要性

* 简单了解
** 熟悉掌握
*** 需要精通

  1. Hive的介绍(*)
    • Hive和Hadoop的关系
    • Hive的特点
    • Hive的缺点
    • Hive常见的应用场景
    • Hive和mysql的区别
  2. Hive的架构(*)
  3. Hive的数据(**)
    • Hive的数据模型
    • Hive的底层如何存储Null值
    • Hive中元数据metadata和元数据商店metastore)`的作用
    • Hive有哪些保存元数据metadata的方式
    • Hive元数据存储方式中,本地模式和远程模式的区别
    • Hive的数据类型
    • Hive的隐式类型转换规则
    • Hive数据存储所使用的文件格式
    • Hive中使用的压缩算法
    • 什么是数据可分割
    • 关于压缩模式说明
  4. Hive的安装与使用(*)
    • 如何在Hive中集成HBase
    • 如何通过 HiveSQL 来直接读写 HBase
  5. Hive的分区和分桶(**)
    • 什么是Hive分区
    • Hive分区的优点
    • Hive分区的缺点
    • 什么是Hive分桶
    • 关于Hive索引的说明
    • Hive分桶的优点
    • Hive分桶的缺点
    • Hive中静态分区和动态分区的区别
    • Hive动态分区的参数设定
  6. Hive的内部表和外部表(*)
    • 什么是Hive的内部表和外部表
    • Hive内部表和外部表的区别是什么
    • 生产环境中为什么建议使用外部表
  7. Hive SQL(***)
    • Hive中的SQL如何转化成MapReduce任务的
    • 什么情况下Hive不走MapReduce任务
    • Hive中如何查询A表中B表不存在的数据
    • Hive中有哪些连接查询以及如何使用
    • Hive中左连接和内连接的区别
    • Hive中左连接的底层原理
    • Hive查询时候 ON 和 WHERE 有什么区别
  8. Hive 函数(***)
    • 如何使用UDF/UDAF/UDTF
    • 为什么使用UDF/UDAF/UDTF
    • 你写过什么样的UDF/UDAF/UDT
    • Hive自定义函数实现了什么函数什么接口
    • Hive中如何去重
    • Hive中排序函数的使用方式及区别
    • 请说明以下常用函数 split / coalesce / collect list / collect set 的功能
    • 请描述工作中常用的Hive常用函数及使用场景
  9. Hive 运维(*)
    • 如何监控一个提交后的Hive状态
  10. Hive 优化(***)
    • 请说明你在工作中如何进行Hive优化
    • HiveSQL优化 ———— Hive单表查询优化
    • HiveSQL优化 ———— Hive多表查询优化
    • HiveSQL优化 ———— Hive其他查询优化
    • Hive数据倾斜 ———— 单表携带了 Group By 字段的查询
    • Hive数据倾斜 ———— 两表或多表的 join 关联时,其中一个表较小,但是 key 集中
    • Hive数据倾斜 ———— 两表或多表的 join 关联时,有 Null值 或 无意义值
    • Hive数据倾斜 ———— 两表或多表的 join 关联时,数据类型不统一
    • Hive数据倾斜 ———— 单独处理倾斜key
    • HiveJob优化 ———— HiveMap优化方案
    • HiveJob优化 ———— HiveReduce优化方案
    • Hive整体优化方案

我是 fx67ll.com,如果您发现本文有什么错误,欢迎在评论区讨论指正,感谢您的阅读!
如果您喜欢这篇文章,欢迎访问我的 本文github仓库地址,为我点一颗Star,Thanks~

标签:多表,大纲,优化,分区,Hive,查询,2023,数据
From: https://www.cnblogs.com/fx67ll/p/hive-interview-list.html

相关文章

  • 【2023-07-12】一举多得
    20:00世上哪有那么多坏人。有很多人只是运气不好罢了。                                                 ——贝蒂·史密斯本周日是何太的生日,如果单单只是在家里买个......
  • SSO2.0 24-20230712
                    ......
  • 2023.7.12
    今天又是早起的一天八点半去练车所以今天自己溜达到驾校有点热呜呜今天教练去监考他把车给我让我自己练,真的是太放心我了哈哈哈,还让我教会另一个姐姐倒车入库后来那个姐姐走了,就剩下我自己一个人练车,真的很自由,除了有点费脚没啥毛病后来又来了一位稍微年长的姐姐,很热情,我俩又......
  • 2023.7.12
    早上和平时一样没什么特别的,只是刷刷视频,有时学着做吃的,中午脑袋疼,又去诊所拿了些药,眼泪不知道为什么一直不停的流,脑袋也比平时热,医生说我是细菌感染,我很无语,但还是开了药,下午躺着睡了一下午,终于才缓了过来,起床后吃了中午没吃的饭,蛋炒饭加上泡姜,还是不错的,继续在pta上完成了一些题......
  • 2023暑假集训
    20230710I-VisitingFriend(点双/圆方树)题意多次询问两个点之间所有路径可能经过的点数,路径只需要满足起点和终点不重复经过。\(N,M,Q ≤ 5\times10^5\)题解建出圆方树,方点点权设为0,圆点点权设为1。维护一下子树和,讨论两个点的LCA是不是其中一个点两种情况,删去不可能......
  • 2023.7.12 鲜花
    昨天2023.7.11考的NOIDay1模拟,今天考Day2。个人感觉Day1比Day2可做多了。Day1T1很好做,然后T2今天调出来了,类似DFA建自动机,把所有可能的数处理出来,接着处理出所有状态的后继进行暴力数位DP匹配,可以获得90分高分。注意变量名取得正常一点,不要把乱七八糟......
  • 2023.7.12打卡
    2023.7.12(1)、今天考完科目二了,差一点点没过,然后从市里回来后学了会Java,看了会综艺,果然,恋爱还是看别人谈才有意思,晚上去打了会球,初中的老毛病又犯了,膝盖疼。(2)、明天学Java,记单词,看下《大道至简》,看辩论赛。(3)、做什么事都得认真对待。因为我去市里没带电脑,所以有几天没发博客。......
  • NOI 2023 考前知识点总复习
    NOI2023考前知识点总复习其实就是把熟悉或不熟悉的东西再过一遍,防止考场上出现会了做法却因为忘了算法而写不出来的问题。可能会一句话概括,也可能附上一点代码片段。如果不想复习知识点,只想要一点考前提示,可以直接翻到本文最底部。目录I.数据结构、树上问题II.数论III.......
  • 每周总结2023/7/12
    hadoop组成  HDFS架构 namenode负责处理数据存储位置,Datanode负责存储的具体数据2NN负责辅助namenode ......
  • 20230710刷题
    B.ObsessionwithRobots先假设除了机器人走的路其他的地方都是障碍,然后记录下来可以走的地方用BFS遍历一遍,判断一个机器人有没有bug#include<bits/stdc++.h>#defineyescout<<"YES"<<'\n'#defineno cout<<"NO"<<'\n'usingnamespacest......