首页 > 其他分享 >大数据问答200问(有问必答)(一)

大数据问答200问(有问必答)(一)

时间:2024-09-25 10:50:14浏览次数:11  
标签:200 存储 函数 分桶 over hive 问答 col 有问必答

独家整理,超级全的问答!!

1、mysql和hive有什么区别 / OLTP和OLAP的区别 / 数据库和数据仓库的区别?

Hive: OLAP A,数据仓库,面向主题,面向分析,存储历史数据,不能修改删除等,查询量大,查询慢,也是有事务和索引的,但是不用

MySQL: OLTP T,数据库,面向业务,存储的是业务数据,可以增删改查,速度快 效率高,查询量小,支持事务和索引

2、分桶表和分区表的区别?

分区表:使用partition by子句指定

有静态分区(手动加载)和动态分区的两种

一个表可以拥有一个或多个分区,每个分区以文件夹的形式单独存放在表文件夹目录下。

算是Hive的优化

分桶表:使用clustered by子句指定

将表中记录按照分桶键的哈希值分散进多个小文件中,这些小文件就称为桶。

分文件,将文件进行打散,在数据倾斜的时候,使用分桶表可以处理数据倾斜问题

3、分桶表需要进入mapreduce嘛?

是否需要在MapReduce框架下处理分桶表,取决于应用场景的需求。

简单查询不一定需要MapReduce进行处理。复杂的则需要,对分桶表数据进行分析、汇总或者其他并行处理操作等。

4、hive的端口号知道哪些?

hivesever2端口号:10000

Metastore端口号:9083

5、hive元数据默认存哪里?

hive元数据默认存储自带数据库里derby(德比),但是一般情况下都会存储在外部数据库 MySQL Oracle当中

6、hive的表存放在哪里?

hive表存放在hdfs当中

7、内部表和外部表的区别?

内部表:create table 删除表的时候,数据及元数据都会删除

外部表:create external table 只删除元数据,HDFS上的数据不会被删除

8、HDFS的启动命令是什么?

start-dfs.sh

9、YARN的启动命令是什么?

start-yarn.sh

HDFS、YARN共同启动:start-all.sh

10、YARN的调度策略有哪些?

FIFO调度:按照作业提交的顺序进行调度,先提交的作业获得资源。

公平调度:公平的分配给每一个正在运行的作业,以确保每个作业都能获得一定比例的资源。

容量调度:允许用户预先定义多个队列,每个队列都有自己的资源配额。

11、hadoop的端口号你了解有哪些?

HDFS:9870

NameNode:9870(Hadoop 3.x版本) IP通信端口:8020(用于内部节点通信)

YARN:8088

zooKeeper:2181

12、什么是闭包?(python)

在函数内部定义了另外一个函数并返回这个内部函数作为对象,同时还保存了外层函数的状态信息。

这个内部函数可以依赖外层函数的变量和参数,而且外层函数返回的是这个内部函数的引用。

这种函数内部定义函数并返回的方式形成了闭包。

13、如何查看linux内存大小和磁盘空间

查看内存情况:

free -h :显示文件系统内存使用情况

top:实时显示系统的资源使用情况,包括内存、CPU等 按Q退出

查看磁盘存储:

df -h:显示文件系统的磁盘空间利用情况

du -h:显示目录或文件的磁盘使用情况

14、vi/vim命令:

G:跳到文件最后一行

gg:跳到文件的第一行

yy:复制光标所在行的内容

nyy:复制光标所在行的后n行内容

p:在光标所在行的下一行粘贴内容

dd:删除光标所在行的内容

ndd:删除光标所在行往后n行内容

u:撤销上一步操作

i:进入插入模式

o:在当前行的下方插入新行,并进入插入模式

15、Linux如果跟的文件不存在能不能跑

可以跑。

举例:如果跟踪是程序运行过程中的文件操作,及时文件不存在,跟踪工具也会继续运行,并显示相关的系统调用失败的信息。

16、hive的开窗函数(开窗函数就是窗口函数)有哪些

窗口聚合函数:

sum(col) over() 分组累计求和

count(col) over() 分组累计

min(col) over() 分组求最小值

max(col) over() 分组求最大值

avg(col) over() 分组求平均值

窗口分析函数:

first_value(col) over() 分组排序后第一个col值

last_value(col) over() 分组排序后最后一个col值

lag(col,n,DEFAULT) 统计往前n行的值,n可选,默认为1,DEFAULT当往上第n行为NULL时候,取默认值,如不指定,则为NULL

lead(col,n,DEFAULT) 统计往后n行的值,n可选,默认为1,DEFAULT当往下第n行为NULL时候,取默认值,如不指定,则为NULL

ntile(n):(嗯题傲)用于将分组数据按照顺序切成n片,返回当前切片值。注意:n必须为int类型

窗口排序函数:

rank() over():排名函数 并列但是不连续 如:123356

dense_rank() over():排名函数 并列连续 如:123345

row_number() over():排名函数 不并列排序 如:123456

17、hive常用的优化方式有哪些?

分区表、分桶表、存储压缩、高效的查询语句

18、hive默认的执行引擎可以换吗?

可以换,默认引擎为MapReduce,但支持Tez、Spark

19、hive所有sql会不会全部走mapreduce,会不会都会走map

主要是取决查询的复杂程度和数据的处理请求。

只涉及Map阶段:select-from-where语句,用于读取和过滤,不需要进行跨节点的数据聚合。(只包含基础查询过滤的SQL)

需要发送到Reduce阶段:group by、order by、distinct、having等操作的SQL,需要跨节点的数据聚合或排序。(聚合和排序SQL)

20、HDFS默认存储大小?

默认存储为128M

如果有128.1M,会存储两块,但运行的时候会一起运行,因为有10%的向上幅度

如何看存储 去9870端口 webUI --> block 0/1/2

关注我!后续更新第二版!!

标签:200,存储,函数,分桶,over,hive,问答,col,有问必答
From: https://blog.csdn.net/lmb0222222/article/details/142517485

相关文章

  • baichuan_lmdeploy大规模对话问答语言模型
    Baichuan论文无模型结构Baichuan系列模型是由百川智能开发的开源大规模预训练模型,包含7B和13B等规模。其中,Baichuan-7B在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。模型具体参数:模型名称隐含层维度层数头数词表大小总参数量训练数据(toke......
  • CF2003F Turtle and Three Sequences 题解
    个人觉得*2800有点虚高。如果做过类似的题(比如[THUSCH2017]巧克力),应该可以想到随机映射,状压dp也不难想。实际上,看到要选出\(m\)种不同的颜色,且\(m\le5\)就可以想到将每种颜色随机映射到\(1\)到\(m\)中,这样子得出来的答案不会更优,而当答案选择的\(m\)种颜色恰好......
  • [COCI2009-2010#2] PASIJANS
    [COCI2009-2010#2]PASIJANS题意给出\(n\)个栈,每次可从任意一个栈取出栈顶放入答案队列。求字典序最小的答案队列。思路考虑贪心。每次从字典序最小的栈中取出栈顶。如何动态找出字典序最小的栈?可以使用堆,单次\(O(1)\)查找最小值,\(O(\logn)\)插入。但比较两个栈的字......
  • P4036 [JSOI2008] 火星人
    #include<bits/stdc++.h>#defineintlonglongusingnamespacestd;intlen;intm;intrt=0;inthas[1000010];voidinit(){ srand(1);has[0]=1;for(inti=1;i<=1000000;i++)has[i]=has[i-1]*101;//cout<<......
  • Java学习笔记(上)——动力节点老杜(某站2000万播放)
    此文章是本人大一学习java时记的笔记,原视频在https://www.bilibili.com/video/BV1Rx411876f,配套服用更佳!一.JAVA开发环境的搭建1.常用的Dos命令1.1win+r打开Dos命令窗口1.2什么是Dos命令在最初的计算机中没有图形界面,也就是说通过Dos命令窗口可以完全完成文件的新建、......
  • 计算机知识科普问答--16(76-80)
    文章目录76、什么是处理机调度?调度算法主要有哪几种?1.**处理机调度(ProcessorScheduling)**2.**处理机调度的分类**3.**常见的调度算法**(1)**先来先服务(First-Come,First-Served,FCFS)**(2)**短作业优先(ShortestJobFirst,SJF)**(3)**优先级调度(PrioritySch......
  • 【软考机考问答】—2024软考机考时间注意事项
    一、2024各地软考机考报名时间地区      报名时间 报名入口  免费题库  备考培训广东8月21日9:00-8月29日17:00报名入口免费题库备考培训江西8月20日9:00-9月13日17:00报名入口 免费题库备考培训安徽8月23日9:00-9月3日16:00报名入口免费题库备考培训甘肃8月26......
  • 【软考机考问答】—软考机考可以提前交卷吗?
    软考机考是可以提前交卷的,但是要在规定时间交卷,交卷时要注意是否交卷成功,如果交卷失败要及时联系监考人员!1.高级资格:综合知识:150分钟案例分析+论文连考:210分钟综合知识科目考试时长150分钟,最短作答时间120分钟,考试前30分钟可以交卷离场。案例分析和论文两个科目连考,案例分析科目最......
  • [CTSC2008] 网络管理
    与区间动态查询第\(k\)小非常像,只是这里搬到了树上上面,仍然考虑类似做法先考虑不带修的情况。假设我们现在在递归树的第一层,考虑如何统计答案。现在要将权值不超过\(mid\)的节点加入到树中,然后对于每一个询问,查询路径上有多少个加入了的点,从而将询问分成两组。问题是如何查询路径......
  • 【软考机考问答】—软考机考模拟作答系统入口
    软考自2023年下半年全部科目由笔试改为机考:2023年下半年计算机技术与软件专业技术资格(水平)考试有关工作调整的通告考生在进行软考机考之前是可以提前进入软考模拟系统进行模拟操作,从而熟悉软考机考的计算机化考试环境以及作答方式,那么软考机考模拟系统入口在哪里呢?一起来看看吧!考生......