Part1.面试题

1.主流关系型数据库有哪些？
2.SQL的性能怎么优化？
3.表JOIN时候，底层有哪几种连接类型？
4.项目中对Hadoop和Hive了解？对离线数仓和数据集成ETL的了解？
5.数据存储格式有哪些？
6.离线数仓分层怎么分的？
7.用过哪些任务调度工具？shell调度脚本怎么设计怎么维护？
8.Hive中的内部表和外部表，使用场景？
9.使用Kettle集成数据时候，流程是什么，详细描述每一步？
10.数据通过网络传输时，怎么尽量提高传输速度？常用的对文件的压缩算法有哪些？如何选择压缩算法(区别)？
11.有三个很大的文件副本，分布在不同数据节点上，现在要做JOIN操作，在数据存储中可以采用哪种压缩算法合适？
12.介绍一下刚刚你回答的LZ4压缩算法的特点和使用？
13.离线数据包可以选用哪种压缩算法？为什么？
14.两张大表JOIN时候，出现了数据倾斜，怎么解决？
15.a表和b表，都很大，a表有id,value两个字段，b表id,value,a表id范围为1-5,其中id字段值为1的占了表99%，b表id值为1的占了80%，这样JOIN会出现数据倾斜，怎么处理？
16.用过哪些Hive数据倾斜调优参数？
17.HDFS文件太多了，占用了计算资源，影响服务器性能，在Hive中可以通过参数怎么处理？
18.Spark的使用和技术原理？介绍一下RDD有哪些？DAG调度原理？
19.Spark中的转化算子，举几个例子说
20.Spark的使用场景有哪些？
21.在ETL过程中，数据通过ADF增量导入到云端，数据通过主键更新，有哪些策略保证数据质量？
22.Hive中如何把一张用户表做成拉链表？具体实现的细节？
23.HiveSQL:一张有user_id,date两个列的表，求出连续登录7天的用户数？
24.Shell：要根据日期变量去定期扫描/log这个目录下的文件夹，看是否有app_log这个文件，每隔两小时去检查这个文件，如果生成的话就扫描第一行，并判断第一行是否包含ERROR,如果不包含就输出success,每隔2小时扫描一次，扫描不到就sleep 2小时
25.如果数据链路出现了异常，如何定位下游需要修改调整的表？
26.说说数仓分层设计的优点有哪些？
27.HiveSQL:一张包含了user_id和支付时间paytime的订单表，算出36小时时长内下单数 >= 2的user_id?
28.<偏向数据治理>某APP本月月活环比下降20%，请分析因素？
29.用过阿里云ODPS调度工具吗，说说使用上遇到过的困难以及怎么解决的？
30.Spark的SORT BY底层是怎么实现的？
31.Spark中的SORT BY为什么不会出现数据倾斜？
32.Hadoop任务从启动到结束的过程，详细描述一下？
33.HiveSQL: 一张包含了某个商品的价格price，日期daily的价格变动表，计算30天的价格滑动平均值？
34.HiveSQL<优化>:一张包含了转出人、收款人、转账金额的表，计算收款人的收款总金额并排序，这个表很大，怎么优化让计算速度更快？

点击查看代码

SELECT
    receiver,
    SUM(amount) AS total_received_amount
FROM (
    SELECT
        receiver,
        amount
    FROM transfers
    -- 可以使用哈希函数或随机前缀来分散数据
    -- WHERE HASH(receiver) % n = m -- n为分区数，m为具体分区
) t
GROUP BY receiver
ORDER BY total_received_amount DESC;

35.HiveSQL:一张以id为主键，包含num字段的表，找出所有至少连续出现3次的num数值？ 36.待补充

标签：哪些,规划,笔记,面试,数据,HiveSQL,Spark,压缩算法,id
From： https://www.cnblogs.com/hirateyuriovo/p/18261210

UE5笔记-实现Lumen实时渲染GI下的的类UCanvasRenderTarget实现多场景/自定义分辨率/方
默认的SceneCapture不能用于实时Lumen光照模式下为了实现实时渲染GI下的的类似于UCanvasRenderTarget2D类.可以参考GameViewport类的源码尝试使用UE的渲染逻辑和数据多渲染一份视口副本到直接的FSceneView上，封装一份UCaptureRenderTarget出来从而实现一些例如自定义分辨率的......
[Effective Modern C++] 条款18笔记
条款18中的完整代码：点击查看代码#include<iostream>#include<memory>#include<string>//假设基础的Investment类和Stock类classInvestment{public:virtual~Investment()=default;virtualvoiddisplay()const=0;};//其它类类似，略classSto......
[Effective Modern C++] 条款19笔记 - 为什么deleter的类型是std::unique_ptr类型的一
为什么deleter的类型是std::unique_ptr类型的一部分，而不是std::shared_ptr的一部分？std::unique_ptr<Widget,decltype(loggingDel)>upw(newWidget,loggingDel);std::shared_ptr<Widget>upw(newWidget,loggingDel);这个问题涉及到std::unique_ptr和std::shared_ptr......
[模式识别复习笔记] 第7章聚类
1.聚类给定样本集\(D=\{\bm{x}_1,\bm{x}_2,...,\bm{x}_n\}\)，\(\bm{x}_i\in\mathbb{R}^d\)。通过聚类将\(n\)个样本划分为\(k\)个簇划分\(\mathcalC=\{C_1,C_2,...,C_k\}\)，使得：\[C_i\capC_j=\emptyset,\\foralli\not=j\且\\......
做完这些大模型项目，面试官直呼太牛了
前言大语言模型正迅速成为互联网时代最热门的技术创新之一，虽然现在该技术尚处于起步阶段，但已经开始在一些企业应用中广泛部署。接下来，我们来看看大语言模型的10大应用场景。一、文本翻译二、恶意软件分析三、创造文本内容四、搜索五、代码开发六、检测和预防网络攻......
A*算法实现最优路径规划
用A*算法实现最优路径规划，绿色五角星为起点，红色四角星为终点，黑色方块为障碍物，如下图所示。简要介绍问题的估价函数、算法步骤、搜索路径、代码实现和代码运行结果。importmathfromrandomimportrandintimportpygamefromenumimportEnum#定义全局变量：地图中节点......
30岁想自学PLC转变职业规划，行业空间如何？
在开始前刚好我有一些资料，是我根据网友给的问题精心整理了一份「PLC的资料从专业入门到高级教程」，点个关注在评论区回复“888”之后私信回复“888”，全部无偿共享给大家！！！30岁想自学PLC转变职业规划是一个不错的选择，PLC行业的前景较为广阔。随着智能装备下游应用领域的加快拓展，工......
[模式识别复习笔记] 第6章 PCA
1.主成分分析PCAPCA：寻找最能够表示原始数据的投影方法，对数据进行降维，除去冗余的信息。——不考虑类别1.1PCA主要步骤计算散布矩阵\(S\)（或者样本的协方差矩阵）\[S=\sum_{i=1}^{n}(\bm{x}_i-\bm{\mu})(\bm{x}_i-\bm{\mu})^{\text{T}}\]其中\(\bm{\mu}=\frac......
2024最新最全【网络安全/渗透测试】面试题汇总
思路流程信息收集漏洞挖掘漏洞利用&权限提升清除测试数据&输出报告复测问题深信服一面:SQL注入防护为什么参数化查询可以防止sql注入SQL头注入点盲注是什么？怎么盲注？宽字节注入产生原理以及根本原因产生原理在哪里编码根本原因解决办法sql里面只有update怎么利用sql如何......
A tour of C++ 读书笔记
第一章：C++只是个编译型语言，需要源文件编译成目标文件，再通过链接各种库到可执行文件1.6常量 const constexpr这个代表是要在编译的时候估值，性能会有所增加吧2.4联合体(union) 联合体所有的成员都是分配在同一地址上面，所以联合体所占的空间是跟其自身内部成员所......

近期面试笔记和个人规划

Part1.面试题

相关文章

赞助商

阅读排行