首页 > 其他分享 >大厂(****)面试 总结

大厂(****)面试 总结

时间:2022-08-24 10:12:56浏览次数:85  
标签:总结 博客 面试 大厂 sql spark 数据 清洗 内存

hs面试总结:

1 服务器传输命令

-- scp  -r ./**  node1:`pwd`
-- 远程文件拷贝程序,是secure copy program的的缩写 -r (递归)

  

2. 查看服务器运行情况以及cpu,运用哪个命令

top:查看服务器各个进程情况

df -h:linux查看系统内存(硬盘)

  

3.搭建hadoop生态圈,hadoop的搭建,以及cdh的维护 搭建.hadoop环境集群是个什么样的配比(资源,内存,cpu),以及搭建的台数

1. 物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,单台报价4W出头,
惠普品牌。⼀般物理机寿命5年左右。
2. 云主机,以阿⾥云为例,差不多相同配置,每年5W

服务器配置:内存:128,40线程,20核,8T机械,2T固态

服务器台数:20多台

总的资源:2T内存,400核。

 

 

3. 项目中对spark的使用情况

spark 代码:适用于表关联较少,但是处理逻辑相对复杂的的情况. 而且spark相对于hive来讲,速度更快

在项目中,使用spark对ods层的数据进行清洗,统一字段,对敏感数据加密。然后将数据保存到dwd层,主要用了两种方式 spark dsl 和 spark sql。

4.聊下对etl的理解

ETL的全称是抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)而ETL要做的事情,就是按照数据仓库的规则和要求,对各个源系统的数据进行加工和整合,并且将各个源系统的数据存储到数据仓库中。

  • 抽取和清洗

这一环节的主要工作是获取源系统的数据,并按照数据仓库的规则,进行数据加工,对不完整的数据、错误的数据、重复的数据进行处理,最终提取出我们想要的数据。

  • 数据转换

一是数据不一致。具体包括数据类型不一致、数据格式不一致、编码不一致等。

二是数据粒度的转换。源系统和数据仓库对于业务的抽象粒度不一致

  • 数据加载

一是作业加载方式:全量加载还是增加更新。

二是任务触发方式:时间触发还是事件触发。如果是时间触发的话,还需要确定任务的上下游关系和依赖触发关系。

三是调度工具:采用什么调度工具,才能满足上面的需求呢

5. 是否参与过数仓建模的调研

简单搞定数仓搭建:业务调研_白枭的博客-CSDN博客_数仓建设调研

6 ..对于宽表,维度表的数据倾斜的处理

(57条消息) 数据倾斜的处理方案有哪些?_Yulian88的博客-CSDN博客_处理数据倾斜的方法有

7..hive的row-

key设计,设计原理是啥

对key进行分组排序,打乱等,分区的设计逻辑,防止数据的丢失,row-key会影响到存储情况,对rowkey设计的原理以及逻辑思维,想法

数据(结构化,非结构化)抽取——转化为结构化数据——对表有指定的id,关联主键——hive数仓分层(ods数据结构,dw数据结构)拼接到设计的数仓层,加上分区时间,加上指定的数据值

8 .在清洗重复数据,脏数据以及脱敏,sql是怎么定义的,定义的标准是什么,脱敏的规则是啥

(57条消息) 数据清洗必须会的一些方法 - sql篇_Star英的博客-CSDN博客_sql怎么数据清洗

9 .对sql调优的操作

sql的调优 - hudiaoyu2 - 博客园 (cnblogs.com)

标签:总结,博客,面试,大厂,sql,spark,数据,清洗,内存
From: https://www.cnblogs.com/liudehaos/p/16618850.html

相关文章

  • 面试总结
    docker是怎么实现资源隔离的?docker容器本质上是宿主机上的进程。docker利用linux的namespacce实现资源隔离,利用cgroups实现资源限制。同一个namespace之内可以看到相......
  • 面试手撕并发算法题
    面试手撕并发算法题固定打印顺序使用wait-notify实现以下功能:先打印b,再打印a思路一线程t1和t2同时运行,t1中打印a,t2中打印b,但t1打印得有个前提,就是t1要在t2......
  • 面试--集合
    ☺集合重点---HashMap可以看一下文章《从HashMap的执行流程开始揭开HashMap底层实现》一、集合1、说说List、Set、Map三者的区别?谈及元素的有序性、重复性,Map的键......
  • 【全网最全】2022最新版前端 -- 面试题
    @目录一、HTML1、语义话的目的是什么?2、HTML5新增元素3、cookie与sessionStorage和localStorage的区别二、CSS1、CSS有哪些基本的选择器,执行先后顺序?2、垂直水平居中方式有......
  • 服务器性能参数学习与总结
    服务器性能参数学习与总结总体说明在不考虑奸商和回扣的的情况下:同时间段购买的机器,价钱越高,配置越高,机器的性能越好.其实服务器与PC机器一样,高性能往往意味着......
  • dfs总结
    Dfs:深度优先搜索.它是将当前状态按照一定的规则顺序,先拓展一步得到一个新状态,再对这个新状态递归拓展下去。如果无法拓展,则退回一步到上一个状态,再按照原先设定的规则顺......
  • 深搜总结
    所谓深搜(也叫回溯法)就是采用的是“一直往下走,走不通了就掉头,换一条路再往下走”总结来说就是递归的枚举一直往深处走,直到找到解或者走不下去为止主要步骤:1.构建一个递归......
  • 面试题 - Final修饰属性
    final修饰数据类型基本数据类型final修饰基本数据类型后,数值不可被修改publicclassTemplate{//privatefinalinta=1;//显示初始化privatefina......
  • 【数据库】在公司开发过程中总结的SQL编写规范,参考开发手册
    〇、概述1、常用资料链接(1)阿里巴巴开发手册链接:https://pan.baidu.com/s/1OtOFuItDIP7nchfODGIZwg?pwd=htx0 提取码:htx0 2、包含内容 一、开发手册内容(一)建表1......
  • 2022/8/23 总结
    A.神仙题这题的名字就是我的感受亲身经历,警钟敲烂,\(\mathtt{hash(\)}\)在\(\mathtt{c++}\)中是一个\(\mathtt{STL}\)函数。不要重名!不要重名!!不要重名!!!Solutio......