记录hive一次数据倾斜问题的解决以及思考总结

时间：2022-12-23 00:11:36浏览次数：50

解决数据倾斜是大数据开发中比较重要的能力，这个现象指的是分布式集群中，由于数据分发的不当，导致某个节点要处理的错误过多，导致整个计算机任务迟迟结束不了，甚至可能节点出现OOM使得任务失败
处理数据倾斜的第一步就是定位到数据倾斜的位置以及理清数据倾斜的原因
这次数据倾斜模拟的是大key，也就是某个key下记录远超于其他key，在join或者group的时候会导致某个reduce任务特别慢(可以通过yarn的web ui查看端口号8088
）

使用环境

hadoop+hive（on mapreduce）

一、确定大key

类似做数据挖掘中的预处理阶段，通过sql查看key的分布问题

垃圾sql

select count(distinct(key))
from table

distinct走全局，也就是走一个reduce，导致数据倾斜！！！！

改良后

select key,count(1)
from(
select key
from table
group by key)
key_table

结合task的执行情况基本可以判定为大key问题或者通过task日志来确定哪个key有问题，过程为https://blog.csdn.net/epitomizelu/article/details/117120258

二、确定哪个key后定位sql语句

这时候可以通过jobname后面的stage结合explain(有时间总结下explain用法，这个没法硬记，还得靠实践中熟悉），根据执行计划，就能判断哪里的sql语句出现了数据倾斜

三、判断造成数据倾斜的大key与业务逻辑有无关系

若没有关系，比如这次研究布局二三线城市的商业，那么占大部分数据的一线城市人口需求就不需要有，需要提前过滤掉
若有关系，则需要讨论如何进行优化，以后进行补充

标签：倾斜,思考,hive,key,sql,table,数据
From： https://www.cnblogs.com/spark-cc/p/16999848.html

Zeppelin-0.9.0安装并集成Hive、Spark、MySQL、Python
1、下载安装包http://archive.apache.org/dist/zeppelin/zeppelin-0.9.0/2、上传zeppelin-0.9.0-bin-all.tgz至/opt/soft3、解压tar-zxvf/opt/soft/zeppelin-0.......
HIVE如何获取当前日期的前两个工作日及后三个工作日
1createtemporarytableifnotexiststmpas2select3cur_date,4if_workday,5sum(if_workday)over(orderbycur_dateasc)lg6FROM......
大数据--pyspark远程连接hive
上一篇文章介绍了python连接hive的过程，通过地址+端口号访问到hive并对hive中的数据进行操作，这一篇文章介绍一下怎么通过windows本地pyspark+本地部署好的spark+远程虚拟机......
【深度思考】如何优雅的校验参数？
在日常的开发工作中，为了保证落库数据的完整性，参数校验绝对是必不可少的一部分，本篇文章就来讲解下在项目中该如何优雅的校验参数。假设有一个新增学员的接口，一般第一步我们......
大数据--python远程连接Hive
步骤：启动metastore启动hiveserver2使用beeline进行连接测试，查看地址等是否能够成功连接（确认无误可以跳过）使用python连接hive（粗暴的文件配置以及完整操作见文末）一.启动hives......
Flink使用TableAPi方式读取和写入Hive
以下是一个简单的参考实例，用来验证通过FlinkSQL来跑批方式清洗Hive数据可行的。（1）验证了Hive中org.openx.data.jsonserde.JsonSerDe格式的表是可以直接读取数据出来的（2）通......
关于年会抢红包游戏的一个思考
关于年会抢红包游戏的一个思考1.游戏介绍0x1：游戏规则该游戏名叫红包接龙，规则如下：年会会场内所有人都通过钉钉群的方式参与该游戏，会场人数一般为200......
从随机过程的熵率和马尔科夫稳态过程引出的一些思考 - 人生逃不过一场马尔科夫稳态
从随机过程的熵率和马尔科夫稳态过程引出的一些思考-人生逃不过一场马尔科夫稳态1.引言0x1：人生就是一个马尔科夫稳态每一秒我们都在做各种各样的......
关于《货币金融学》若干问题的思考《八》
关于《货币金融学》若干问题的思考《八》1、货币均衡的概念0x1：经济学中均衡的概念1、瓦尔拉斯的一般均衡理论里昂瓦尔拉斯运用数理方法，从交换、生产......
大咖说·开源人说｜数据库 PolarDB 开源的商业逻辑与价值思考
数据库开源的背后有哪些争议与机遇？开源与商业模式之间，是相互冲突还是相辅相成？数据库的未来又会面临怎样的发展趋势？本期大咖说，阿里巴巴集团副总裁李飞飞、阿里云数据库开......

记录hive一次数据倾斜问题的解决以及思考总结

一、确定大key

二、确定哪个key后定位sql语句

三、判断造成数据倾斜的大key与业务逻辑有无关系

相关文章

赞助商

阅读排行