• 2024-06-21近期面试笔记和个人规划
    在上海的第八年,工作的第四年,今年我二十五岁,和理想的自己还相差甚远.路漫漫其修远兮,溯洄从之,道阻且长,溯游从之,宛在水中央.Part1.面试题1.主流关系型数据库有哪些?2.SQL的性能怎么优化?3.表JOIN时候,底层有哪几种连接类型?4.项目中对Hadoop和Hive了解?对离线数仓和数据集成ETL的了
  • 2024-05-13HiveSQL
    1.表sublime格式化ctrl+kctrl+f--创建学生表DROPTABLEIFEXISTSstudent_info;createtableifnotexistsstudent_info(stu_idstringCOMMENT'学生id',stu_namestringCOMMENT'学生姓名',birthdaystringCOMMENT'出生日期',
  • 2024-03-28Hive 刷题——HiveSql 实现分钟级的趋势图
    问题描述在Hive中,怎么用sql实现分钟级的趋势图?比如从交易表中,如何统计0点到每分钟的交易趋势图?原表:trade_A(trade_id,pay_time(格式是2020-08-0510:30:28),pay_gmv)。希望用sql实现分钟级的0点到当前分钟的GMV。结果表:result_A(minute_rn(分钟顺序),pay_gmv_td(每分钟的交易额,都是
  • 2024-03-05snappy压缩格式下使用数字与字符串不等于比较,hiveSQL和sparkSQL表现不一致的行为记录。
    Hive版本:2.3.4Spark版本:2.4.0当时用Snappy格式对表进行压缩时,时用<>符号将字符串与数字进行比较会产生不一致的结果。SparkSQL结果并非预期结果。DROPTABLEIFEXISTStest.zero_test;CREATETABLEtest.zero_testTBLPROPERTIES("orc.compress"="SNAPPY")ASSELECT
  • 2024-02-27Trino(PrestoSQL)和HiveSQL的时间格式转换对比
    1.获取当前时间--hiveselectfrom_unixtime(unix_timestamp());-->2021-01-0622:53:16--精确到今天的时分秒selectfrom_unixtime(unix_timestamp('2021-12-0713:01:03'),'yyyy-MM-ddHH:mm:ss');-->2021-12-0713:01:03--精确到今天的时分秒指定格式selectcurrent
  • 2023-11-05Hivesql字符截取函数错用
    1.背景       最近在使用instr进行字符截取时出现了字符截断的情况,案例是需要获取出"红河哈尼族矫族自治州(xxxx(红河)有限公司)"里面的"xxxx(红河)有限公司"内容,结果获取到的内容是"xxxx(红河",该语句针对只有一对括号时没有问题,当出现这种有两个括号时就会出现截断的问题,
  • 2023-09-15尚硅谷大数据HiveSQL练习题(一)——同时在线人数问题
    题目需求现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。user_id(用户id)live_id(直播间id)in_datetime(进入直播间的时间)out_datetime(离开直播间的时间)10012021-12-119:30:00
  • 2023-06-21HiveSQL在使用聚合类函数的时候性能分析和优化详解
    概述前文我们写过简单SQL的性能分析和解读,简单SQL被归类为select-from-where型SQL语句,其主要特点是只有map阶段的数据处理,相当于直接从hive中取数出来,不需要经过行变化。在非多个节点的操作上,其性能甚至不比Tez和Spark差。而这次我们主要说的是使用聚合类函数的hiveSQL,这类SQL需
  • 2023-06-09Hive执行计划之什么是hiveSQL向量化模式及优化详解
    Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。问题1:那么什么是hive向量化模式呢?问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢?问题3:如何查看hive向量化使用的相关信息?1.什么是hive向量化模式hive向量化模式是hive的一
  • 2023-05-06HiveSQL调优-最常用的调优方式
    系统和其它层面:让经常where的字段进行分区,合理的多分桶、数据使用压缩、建宽表的时候用列式的orc存储、开启严格模式:会产生笛卡尔积、orderby排序后未加limit、查询分区表时未指定列的HiveSQL语句直接执行出错开启列裁剪和分区裁剪:即只查询要读取的列和分区,避免全表扫描或全列
  • 2023-04-21hiveSQL mapreduce任务调优
    sethive.merge.mapredfiles=true;--在Map-Reduce的任务结束时合并小文件setmapred.max.split.size=30000000;--决定每个map处理的最大的文件大小,单位为B--setmapred.min.split.size=10000000;--公司集群默认值--setmapred.min.split.size.per.node=;
  • 2023-04-02hivesql练习_会话划分问题
    现有页面浏览记录表(page_view_events)如下,表中有每个用户的每次页面访问记录。user_idpage_idview_timestamp100home1659950435100good_search1659950446100good_list1659950457100home1659950541100good_detail1659950552100cart16599505631
  • 2023-04-02hivesql练习_间断连续登录用户问题
    现有各用户的登录记录表(login_events)如下,表中每行数据表达的信息是一个用户何时登录了平台。user_idlogin_datetime1002021-12-0119:00:001002021-12-0119:30:001002021-12-0221:01:00现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在
  • 2023-03-28hivesql练习_排列问题
    现有球队表(team)如下。team_name(球队名称)湖人骑士灰熊勇士拿到所有球队比赛的组合每个队只比一次期望结果如下:team_name_1<string>(队名)team_n
  • 2023-02-15Hive 面试题——HiveSQL 执行顺序
    描述今天刷到了一个面试题:hivesql执行顺序,接下来就从一个带有groupby的例子看看hivesql的执行顺序执行顺序为from..on..join..where..groupby..having
  • 2023-02-13HiveSQL 工作实战总结
    记录一些工作中有意思的统计指标,当然做过一些简化方便大家阅读,后续会不断更新,欢迎关注追踪~问题类型连续问题两种思路第一种:日期减去一列数字得出日期相同,主要是通过
  • 2022-12-31HiveSQL——打折日期交叉问题
    需求描述如下为平台商品促销数据:字段为品牌,打折开始日期,打折结束日期createtabletemp_date_link(brand_idvarchar(10),start_datestring,end_dat
  • 2022-10-19HiveSQL(一)
    内容大纲:1.掌握HQLDDL数据定义语言 //针对表的数据类型SerDe序列化机制分隔符语法内部表、外部表数据存储路径分区表分桶表alter修改表2.掌握HQLDML数据