首页 > 其他分享 >总结笔记1

总结笔记1

时间:2023-08-13 22:46:25浏览次数:34  
标签:总结 rank 函数 hive job 笔记 sql stage

1.数据颗粒度, 维度
2.是数据量
3.笛卡尔积
加条件,内连接 外连接等

4.行转列 sql case when的理解 造列
行转列 case when / if
列转行 union all
列转换成字符串GROUP_CONCAT

5.hive 中 MR

6.hive join
7. hive sql 优化 案例介绍
减少处理的数据量 分区裁剪,列剪裁
合理的设置map、reduce数量 默认Map数的计算公式为 default_num=total_size/block_size
小文件合并
Shuller过程优化
join优化
数据倾斜优化

8.spark sql / hive sql
9.shell 命令
10. 开窗函数
语法:

select 窗口函数 over (partition by 用于分组的列名, order by 用于排序的列名

分类:

排名函数:row_number(),rank(),dense_rank()
聚合函数:max(),min(),count(),sum(),avg(),median()
向前向后取值:lag(),lead()
百分位:percent_rank()
取值函数:first_value(),last_value(),nth_value()
分箱函数:ntile()

  1. 逻辑和思维

12.spark的任务划分
Spark应用程序包括Job、Stage以及Task三个概念:

job:以 action 方法为界,一个 action 触发一个 job

stage:它是 job 的子集,以 RDD 宽依赖为界,遇到宽依赖即划分 stage

task:它是 stage 的子集,以分区数来衡量,分区数多少,task 就有多少

sed

标签:总结,rank,函数,hive,job,笔记,sql,stage
From: https://www.cnblogs.com/ccli555/p/17627426.html

相关文章

  • 总结笔记4
    hivesql函数字符串函数:1.length:length(stringA)2.reverse:reverse(stringA)3.concat:concat(stringA,stringB)4.concat_ws:concat_ws(stringsep,stringA,stringB)5.substring,substr:substring(stringA,intstart,intlen)6.substring_index(str,delim,count)如......
  • 总结笔记2
    关联规则AB测试聚类算法查找问题:漏斗分析横向分析小辛野子:先是一个sql,让算新增用户数,7日内的留存小辛野子:然后问了决策树算法、聚类算法、关联规则小辛野子:解释贝叶斯定理的公式小辛野子:用假设检验和置信区间解释第一类错误第二类错误小辛野子:还有各种因果推断......
  • 总结笔记5
    1.Azuredatalake,datafactory,databricks,sqlDB2.文件,DB,API的ETL经验,3.Azure权限和安全体系4.逻辑和物理分层模型5.熟练SQL能力6.具备编程能力,例如python,C#,scala7.机器学习8.Agile项目管理办法,使用azuredevOps工具进行项目实施,9.数据平台运维经验考察sql能力及基础函......
  • c语言笔记1
    C语言笔记1(c简介,环境设置,程序结构,Linux基本知识)1.c简介c语言是一种通用的高级语言,最初是为开发unix操作系统而设计的。unix操作系统,c编译器,和几乎所有的unix应用程序都是用c语言编写的。由于各种原因,c语言现在已经成为一种广泛使用的专业语言。1.易于学习2.结构化语言3.......
  • PMP 学习笔记(九)
    08.09星期三有新干系人加入时,先分析,再做其他操作敏捷项目有新需求,先列入到待办项列表,再分析影响,不需要分类风险管理计划是项目经理自己用的,不是用于上报的要削减预算,必须缩小范围质量审计和合规有对应关系整合工作不能委托/授权给其他人风险问题要“疑似从有”技术意见......
  • 《深入理解Java虚拟机》读书笔记:内存分配策略
    Java技术体系中所提倡的自动内存管理最终可以归结为自动化地解决了两个问题:给对象分配内存以及回收分配给对象的内存。关于回收内存这一点,我们已经使用了大量篇幅去介绍虚拟机中的垃圾收集器体系以及运作原理,现在我们再一起来探讨一下给对象分配内存的那点事儿。对象的内......
  • [学习笔记] 概率 & 期望
    一、一些定义注:以下定义并非严谨定义,只是便于理解。\(P(A)\):事件\(A\)发生的概率。\(E(X)\):随机变量\(X\)的期望值,有公式\(E(X)=\displaystyle\sum_{w}w\timesP(X=w)\)。独立事件:两个事件\(A,B\)发生没有关联,有\(P(A\wedgeB)=P(A)\timesP(B)\)......
  • JavaScript学习笔记
    JavaScript1JavaScript输出JavaScript能够以不同方式"显示"数据:使用window.alert()写入警告框使用document.write()写入HTML输出使用innerHTML写入HTML元素使用console.log()写入浏览器控制台1.1使用innerHTML如需访问HTML元素,JavaScript可使用doc......
  • <学习笔记>整除分块
    \([CQOI2007]余数求和\)求\(G(n,k)=\sum_{i=1}^{n}k\modi\)因为\(k\modi=k-\lfloor\frac{k}{i}\rfloor*i\)所以就成了求\(n*k-\sum_{i=1}^{n}\lfloor\frac{k}{i}\rfloor*i\)求后者:首先枚举左端点\(l\),然后就可以求出左端点所属区间的\(\lfloor\frac{k}{i}\rfloor......
  • 笔记本电脑停滞发展的二十年,该如何进行大的进步?
    在过去的二十年里,笔记本电脑的技术虽然有所改进,但整体进步却相对停滞。这主要是由于市场竞争激烈,生产商们注重维持市场份额,而忽略了在技术创新上的投入。然而,在不断发展的科技领域中,笔记本电脑再也无法满足人们的需求,需要进行大的进步。首先,在硬件方面,笔记本电脑需要更高的处理能......