首页 > 数据库 >Hive SQL的坑和note

Hive SQL的坑和note

时间:2024-07-24 20:28:43浏览次数:11  
标签:COUNT insert group transdt Hive note SQL ORDER select

  • Hive的GROUP BY是不能识别别名的:把别名对应的那个表达式都扔到group by里去
  • 非聚合列必须出现在group by中
select col1, col2, collect_set(col3)
sum(is_drawback) as order_cnt
count(1) as xxx
FROM xxx.table
group by col1, col2
  • insert into 与 insert overwrite 都可以向hive表中插入数据,但是insert into直接追加到表中数据的尾部,而insert overwrite会重写数据,既先进行删除,再写入。如果存在分区的情况,insert overwrite会只重写当前分区数据。

INSERT OVERWRITE TABLE employees
PARTITION (country = 'US', state)
SELECT ..., se.cnty, se.st
FROM staged_employees se
WHERE se.cnty = 'US';
  • 当我们使用复杂的sql时 比如 select * from a join b join c 这种尽量使用create temporary table。因为这种join比较耗时 一次即可。

但是如果我们使用的目的仅仅时简化sql比如 有时候查询指定的字段 select a,b,c,d,e,f,g,h from t 这种比较简单的查询还是推荐with tmp as ()语法,因为hive本身查询这种就很快,不需要额外花费时间落地为数据 这样还更耗时

  • case when

select
dname ,
sum(case when gender='男' then 1 else 0 end) as m_cnts ,
sum(case when gender='女' then 1 else 0 end) as f_cnts ,
case when dname='A' then '教学部' else '后勤部' end   as ch
from
tb_case_when_demo
group by dname ;
 
+--------+---------+---------+------+
| dname  | m_cnts  | f_cnts  |  ch  |
+--------+---------+---------+------+
| A      | 2       | 1       | 教学部  |
| B      | 1       | 2       | 后勤部  |
+--------+---------+---------+------+
  • 中位数
    percentile或者percentile_approx,此函数本是求分位数,但是0.5的分位数不就是中位数嘛!
    若是int型(bigint等)用percentile 例:select percentitle(item_a,0.5) from table_a;
    若是float(或者double等)用percentile_approx,例:select percentitle_approx(item_a,0.5) from table_a。
    approx是approximate的简写。

  • 环比and同比
    SELECT 
        MONTH(transdt) as transdt_m,
        COUNT(DISTINCT card_no) AS active_users,
        AVG(txamountrmb) AS avg_tx_amount,
        COUNT(*) AS transaction_cnt,
        LAG(COUNT(DISTINCT card_no), 12) OVER (ORDER BY transdt_m) AS lag_active_users,
        LAG(COUNT(*), 1) OVER (ORDER BY transdt_m) AS lag_transaction_cnt,
        COUNT(DISTINCT f2pan) / LAG(COUNT(DISTINCT f2pan), 12) OVER (ORDER BY transdt_m) - 1 AS active_users_rate,
        COUNT(*) / LAG(COUNT(*), 1) OVER (ORDER BY transdt_m) - 1 AS transaction_cnt_rate
    FROM tablename
    WHERE channel = 'Outbound'
    GROUP BY MONTH(transdt)
    ORDER BY transdt_m;
    
    
  •  having是在 group by 分完组之后再对数据进行筛选,所以having 要筛选的字段只能是分组字段或者聚合函数
    where 是从数据表中的字段直接进行的筛选的,所以不能跟在gruop by后面,不能使用聚合函数

  • 在数据量很大的情况下,尽量不要使用count(distinct)和group by会有数据倾斜的问题

标签:COUNT,insert,group,transdt,Hive,note,SQL,ORDER,select
From: https://blog.csdn.net/m0_63190465/article/details/140593582

相关文章

  • MySQL PXC 集群死锁分析案例
    前不久一个系统死锁导致部分业务受到影响,今次补上详细的节点日志分析过程。这个PXC集群有三个节点,分别是108、109、110,日志信息的ip6地址、节点编号等信息均已做脱敏处理。以下日志里面,3个节点对应的配置信息是:10899999999-99089999:9999:9999:9999::6c10999999999-99099......
  • MYSQL基础知识之DML
    数据库备份与还原备份 mysqldump.exe-hlocalhost-P3306(端口号) -uroot -p库名>E:/库名20240719.sql还原 mysql.exe-h106.55.169.91-P3306-uroot-phaha<E:/xiao2.sql数据表的新增 insertinto表名(字段名,字段名,....,字段名) values/......
  • WEB:Mysql 备份与多表设计 - 04
     mysql数据库的备份与恢复备份数据库:cmd窗口中使用mysqldump备份数据库mysqldump-uroot-pdb_name> c:/xxx.sql例如:mysqldump-uroot-pmydb2 > c:/mydb2.sql恢复数据库:方式1:cmd窗口中使用mysql命令恢复数据库,注意,只能恢复数据库中的数据,不能恢复数据......
  • 力扣高频SQL 50题(基础版)第九题
    文章目录力扣高频SQL50题(基础版)第九题197.上升的温度题目说明思路分析实现过程准备数据实现方式结果截图总结力扣高频SQL50题(基础版)第九题197.上升的温度题目说明Weather±--------------±--------+|ColumnName|Type|±--------------±--------+......
  • 力扣高频SQL 50题(基础版)第八题
    文章目录力扣高频SQL50题(基础版)第八题1581.进店却未进行过交易的顾客题目说明思路分析实现过程准备数据:实现方式:结果截图:总结:力扣高频SQL50题(基础版)第八题1581.进店却未进行过交易的顾客题目说明表:Visits±------------±--------+|ColumnName|Type|......
  • SQL---------存储函数
    ●存储函数(必须要有返回值)存储函数是有返回值的存储过程,存储函数的参数只能是in类型的。具体语法如下:createfunction存储函数名称([参数列表])returnstype[characteristic...]......
  • MySQL 如何拥有针对特定主机的单一用户账户
    MySQL如何拥有针对特定主机的单一用户账户?通常,我们会创建用户名相同但主机/IP不同的独立用户账户,如<USER>@<HOST1>,<USER>@<HOST2>....。<USER>@<HOSTn>。然后,给予这些用户相同的授权(权限/角色)和设置(密码、SSL等)。 除了以上的做法,可以创建一个可以从所有主机连接的......
  • MySQL(1)
    文章目录概述数据库OLTPOLAPSQLDQLDMLDDLDCLTCLMYSQL连接池管理服务和工具组件SQL接口查询解析器查询优化器缓冲组件CRUD创建数据库删除数据库选择数据库创建表删除表清空数据表增删改查小结概述数据库**按照数据结构来组织、存储和管理数据的仓库;**是一个长期存......
  • php使用ZipArchive解压压缩包
    //处理照片压缩包$zip=new\ZipArchive();//获取压缩包内容照片数量$path='static/oa/img/staImport/'.date('Ymd').'/'.date('His');if($zip->open($param['fileUrl'])===TRU......
  • [第一章 web入门]SQL注入-1
    [第一章web入门]SQL注入-1payload/index.php?id=1'and0unionselect1,2,group_concat(fllllag)fromfl4g--+?id=-1'unionselect1,2,group_concat(fllllag)fromflag--+Step库名?id=-1'unionselect1,2,group_concat(SCHEMA_NAME)frominformati......