大数据实战-Hive-技巧实战_2LgaeiFwLs7mCTwG5T3c9M

大数据实战-Hive-技巧实战

1.union 和 union all

前者可以去重

select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218';
+------+----------+--+
| sex  | address  |
+------+----------+--+
| m    | A        |
| m    | A        |
| m    | B        |
| m    | B        |
| m    | B        |
| m    | B        |
+------+----------+--+

后者不会去重

select sex,address from test where dt='20210218' union select sex,address from test where dt='20210218';
+------+----------+--+
| sex  | address  |
+------+----------+--+
| m    | A        |
| m    | B        |
+------+----------+--+

2.sql后面的distribute by , sort by的作用

3.分桶表

clustered by (sno) sorted by (age desc) into 4 buckets

传入数据只能用insert into /overwrite

2.1.1版本设置了强制分桶操作，因此人为的修改reduce的个数不会影响最终文件的个数(文件个数由桶数决定)
–1. 在2.1.1版本里，底层实现了强制分桶，强制排序策略
– 即：正规写法要带上distribute by(分桶字段)[sort by 排序字段]，如果没有带上，也会分桶和排序。
–2. 使用insert into时可以不加关键字table. 使用insert overwrite时必须带关键字table.
–3. 因为底层实行了强制分桶策略，所以修改mapreduce.job.reduces的个数，不会影响桶文件数据。但是会影响真正执行时reduceTask的数量。是真正的reduceTask的数量是最接近mapreduce.job.reduces的数量的因子。如果是素数，就使用本身

4.动态分区小文件和OOM优化

INSERT OVERWRITE TABLE ris_relation_result_prod partition(rel_id)
SELECT get_json_object(relation, '$.relationHashcode') AS relation_hashcode,
get_json_object(relation, '$.targetVariableValue') AS target_variable_value,
get_json_object(relation, '$.relId') AS rel_id
FROM ris_relation_old_prod733 where get_json_object(relation, '$.relId') in (**********)

set hive.optimize.sort.dynamic.partition=true;

https://blog.csdn.net/lzw2016/article/details/97818080

5.hive 需要开辟很多内存的问题解决

https://blog.csdn.net/qq26442553/article/details/89343579

问题1: Hive/MR 任务报内存溢出

running beyond physical memory limits. Current usage: 2.0 GB of 2 GB physical memory used; 3.9 GB of 4.2 GB virtual memory used. Killing container。

内存调优参数：https://blog.csdn.net/snzzy/article/details/43115681

6.hive的一些sql优化

https://blog.csdn.net/kwuganymede/article/details/51365002

map join优化

7.Hive插入小文件被kill现象

在hive 插入数据动态分区时候会产生很多小文件，被kill, 如下图1, 另外在GC overhead limit execded

8.Hive处于Block状态，超时

mapreduce.task.timeout

如果一个task在一定时间内没有任何进入，即不会读取新的数据，也没有输出数据，则认为该 task 处于 block 状态，可能是临时卡住，也许永远会卡住。为了防止因为用户程序永远 block 不退出，则强制设置了一个超时时间（单位毫秒），默认是600000，值为 0 将禁用超时

9.Hive窗口函数不能大小写混乱

max( ) over ( partition by prcid order by b.occurtime desc ) 不能大小写混乱

10.hive客户端日志

hive --verbos=true
hive --hiveconf hive.root.logger=DEBUG,console

11.~/.beeline/history && ~/.hivehistory在2.1版本下，会oom

导致客户端执行命令时候直接卡住，解决方式删除或者移动备份这个文件

标签：实战,2LgaeiFwLs7mCTwG5T3c9M,hive,sex,relation,Hive,address,+------+----------+--+
From： https://www.cnblogs.com/hulichao/p/big-data-realhiveskills-combat2lgaeifwls7mctwg5t3c9m-oa

# yyds干货盘点 # 盘点一个Pandas处理Excel数据的实战案例
大家好，我是皮皮。一、前言前几天在Python最强王者群【小马哥】问了一个Python自动化办公处理的问题，一起来看看吧。三更睡五更起，阎王夸你好身体，粉丝凌晨2-3点在群里发问。各位大佬，我又有个excel程序问题来求助了，请看下方这个excel文档，里面写了两个备注，麻烦帮忙解决一下吧，谢谢下图......
《C++并发编程实战》读书笔记(2)：线程间共享数据
1、使用互斥量在C++中，我们通过构造std::mutex的实例来创建互斥量，调用成员函数lock()对其加锁，调用unlock()解锁。但通常更推荐的做法是使用标准库提供的类模板std::lock_guard<>，它针对互斥量实现了RAII手法：在构造时给互斥量加锁，析构时解锁。两个类都在头文件<mutex>里声明。std::......
解决hive数据库的修改删除等更新语句问题
Hive对使用Update功能的表有特定的语法要求,语法要求如下:(1)要执行Update的表中,建表时必须带有buckets(分桶)属性(2)要执行Update的表中,需要指定格式,其余格式目前赞不支持,如:parquet格式,目前只支持ORCFileformat和AcidOutputFormat(3)要执行Update的表中,建表时必......
图形验证码和短信验证码实战
前言：上一篇分分享了基于阿里云实现的短信验证码文章，考虑到为了防止登录时，非人工操作，频繁获取验证码，趁热打铁，现在添加了图片验证码服务功能。借鉴网上传统的做法，把实现这两个验证的功能做成有个独立的服务，通过Http分别请求获取校验图片验证码和短信验证码。一、需求描述：图形验证码为......
《C++并发编程实战》读书笔记(1)：线程管控
1、线程的基本管控包含头文件<thread>后，通过构建std::thread对象启动线程，任何可调用类型都适用于std::thread。voiddo_some_work();structBackgroundTask{voidoperator()()const;};//空的thread对象，不接管任何线程函数std::threadt1;//传入普通函数std::thr......
前端项目实战叁佰伍拾react-admin和material ui-ReferenceInput的用法
import{Edit,SimpleForm,TextInput,ReferenceInput}from'react-admin';constContactEdit=()=>(<Edit><SimpleForm><TextInputsource="first_name"/><TextInputsource......
前端项目实战叁佰肆拾捌react-admin和material ui-Grid布局样式
<Gridstyle={{margin:0,padding:0,display:"flex"}}><Gridstyle={{width:"70px",margin:"12px0012px"}}>{typeList&&typeList.map((item:any,index......
前端项目实战叁佰肆拾柒react-admin和material ui-Paper的使用Basic
import*asReactfrom'react';importBoxfrom'@mui/material/Box';importPaperfrom'@mui/material/Paper';exportdefaultfunctionSimplePaper(){return(<Boxsx={{display:'flex',......
前端项目实战叁佰肆拾伍react-admin和material ui-stack和paper设置样式
<Stackdirection="row"style={{margin:0,padding:0,display:"flex"}}spacing={{xs:1,sm:2,md:4}}><Paperelevation={5}style={{margin:"4px04px12px"}}>......
前端项目实战叁佰肆拾陆react-admin和material ui-设置Paper的线型
<Paperelevation={5}style={{margin:"4px04px12px"}}>{typeList&&typeList.map((item:any,index:any)=>(<ListMcomponent="div">......

大数据实战-Hive-技巧实战_2LgaeiFwLs7mCTwG5T3c9M

大数据实战-Hive-技巧实战_2LgaeiFwLs7mCTwG5T3c9M

大数据实战-Hive-技巧实战

1.union 和 union all

2.sql后面的distribute by , sort by的作用

3.分桶表

4.动态分区小文件和OOM优化

5.hive 需要开辟很多内存的问题解决

6.hive的一些sql优化

7.Hive插入小文件被kill现象

8.Hive处于Block状态，超时

9.Hive窗口函数不能大小写混乱

10.hive客户端日志

11.~/.beeline/history && ~/.hivehistory在2.1版本下，会oom

相关文章

赞助商

阅读排行