首页 > 其他分享 >**面试总结

**面试总结

时间:2022-08-21 21:35:35浏览次数:86  
标签:总结 数据仓库 博客 面试 sql spark 数据 清洗

hs面试总结:

1 服务器传输命令

scp:远程文件拷贝程序,是secure copy program的的缩写 -r (递归)

2. 查看服务器运行情况以及cpu,运用哪个命令

top:查看服务器各个进程情况

df -h:linux查看系统内存(硬盘)

3.搭建hadoop生态圈,hadoop的搭建,以及cdh的维护 搭建.hadoop环境集群是个什么样的配比(资源,内存,cpu),以及搭建的台数

服务器配置:内存:128,40线程,20核,8T机械,2T固态

服务器台数:20多台

总的资源:2T内存,400核。

3. 项目中对spark的使用情况

spark 代码:适用于表关联较少,但是处理逻辑相对复杂的的情况. 而且spark相对于hive来讲,速度更快

在项目中,使用spark对ods层的数据进行清洗,统一字段,对敏感数据加密。然后将数据保存到dwd层,主要用了两种方式 spark dsl 和 spark sql。

4.聊下对etl的理解

ETL的全称是抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)而ETL要做的事情,就是按照数据仓库的规则和要求,对各个源系统的数据进行加工和整合,并且将各个源系统的数据存储到数据仓库中。

  • 抽取和清洗

这一环节的主要工作是获取源系统的数据,并按照数据仓库的规则,进行数据加工,对不完整的数据、错误的数据、重复的数据进行处理,最终提取出我们想要的数据。

  • 数据转换

一是数据不一致。具体包括数据类型不一致、数据格式不一致、编码不一致等。

二是数据粒度的转换。源系统和数据仓库对于业务的抽象粒度不一致

  • 数据加载

一是作业加载方式:全量加载还是增加更新。

二是任务触发方式:时间触发还是事件触发。如果是时间触发的话,还需要确定任务的上下游关系和依赖触发关系。

三是调度工具:采用什么调度工具,才能满足上面的需求呢

5. 是否参与过数仓建模的调研

简单搞定数仓搭建:业务调研_白枭的博客-CSDN博客_数仓建设调研

6 ..对于宽表,维度表的数据倾斜的处理

(57条消息) 数据倾斜的处理方案有哪些?_Yulian88的博客-CSDN博客_处理数据倾斜的方法有

7..hive的row-key设计,设计原理是啥

对key进行分组排序,打乱等,分区的设计逻辑,防止数据的丢失,row-key会影响到存储情况,对rowkey设计的原理以及逻辑思维,想法

数据(结构化,非结构化)抽取——转化为结构化数据——对表有指定的id,关联主键——hive数仓分层(ods数据结构,dw数据结构)拼接到设计的数仓层,加上分区时间,加上指定的数据值

8 .在清洗重复数据,脏数据以及脱敏,sql是怎么定义的,定义的标准是什么,脱敏的规则是啥

(57条消息) 数据清洗必须会的一些方法 - sql篇_Star英的博客-CSDN博客_sql怎么数据清洗

9 .对sql调优的操作

sql的调优 - hudiaoyu2 - 博客园 (cnblogs.com)

标签:总结,数据仓库,博客,面试,sql,spark,数据,清洗
From: https://www.cnblogs.com/atao-BigData/p/16610907.html

相关文章

  • [莫比乌斯反演]一些常用公式总结
    一.莫比乌斯反演公式$$$\qquad\qquad\qquad\qquad\qquad$设$F(n)=\sum\limits_{d|n}f(d)$,那么有$f(n)=\sum\limits_{d|n}\mu(d)F(\frac{n}{d})$其中$\mu(d)$......
  • 【MySQL】MySQL总结
    目录1.数据库1.1数据库本质1.2数据库分类1.3SQL与NoSQL1.4数据库重要概念1.5数据库存储引擎1.5.1定义1.5.2存储引擎1.5.3不同存储引擎之间底层文件的区别2.针对......
  • 十周周末总结 MySQL的介绍与使用
    python十周周末总结MySQL的介绍与使用MySQL字符编码与配置文件查看数据库的基本信息(用户,字符编码)/swindos下MySQL默认的配置文件my_default.ini修改配置......
  • 周总结-9week
    目录字符编码与配置文件存储引擎创建表的完整语法字段类型之整型字段类型之浮点型字段类型之字符类型数字的含义字段类型之枚举与集合字段类型之日期类型字段约束条件约束......
  • 总结~音节=>单词---如何划分音节及音节的类型
    参考:https://baijiahao.baidu.com/s?id=1667812287459301608&wfr=spider&for=pc   大家好,今天我们一起来学习下音节的相关内容,本文涉及到了音节的定义,如何划分......
  • 学习python第十周学习总结
    数据存储演变史数据存储的演变其实是对数据的存储格式和数据存储的位置进行演变的过程:1.文本文件基于我们之前所学,数据要想永久保存,都是保存于文件中,毫无......
  • 周总结
    字符编码和配置文件一、前提\s:查看数据库基本信息my-default.ini:Windows下MySQL默认的配置文件拷贝上述文件并重命名为my.ini由于5.6版本编码不统一,会造成乱码,我们需......
  • 二叉树遍历方法总结
    二叉树基本概念面试的时候提到的树,大部分都是二叉树.所谓二叉树是树的一种特殊结构,在二叉树中每个节点最多只能有两个子节点,在二叉树中最重要的操作莫过于遍历,即......
  • VIM编辑器—指令模式命令总结
    一、简介在一般模式当中,输入『:/?』3个中的任何一个按钮,就可以将光标移动到最底下那一行。在这个模式当中,可以提供你『搜寻资料』的动作,而读取、存盘、大量取代字符......
  • 每周总结(22/8/20)
    zookeeper=文件系统+监听通知机制。1、文件系统Zookeeper维护一个类似文件系统的数据结构:每个子目录项如NameService都被称作为znode(目录节点),和文件系统一样,我们......