hive join 的工作机制

时间：2022-12-28 15:34:51浏览次数：36

标签：Map Join hive key mr join 机制

hive join 简介

as we all know，hive会将HQL语句翻译成为mr任务，但：

如果多张表使用同一列做join，则被翻译成一个mr任务
如果多张表使用不同列做join，则被翻译成多个mr任务
（1）一个mr任务

SELECT a.val, b.val, c.val
FROM a
         JOIN b ON (a.key = b.key1)
         JOIN c ON (c.key = b.key1)

（2）多个mr任务

SELECT a.val, b.val, c.val
FROM a
         JOIN b ON (a.key = b.key1)
         JOIN c ON (c.key = b.key2)

一般来说，map过程负责分发数据，具体的join操作在reduce完成。但如果多表基于不同的列做join，则无法在一轮mr任务中将相关数据分发到到同一个reducer中，所以对于多表join，hive会将前面的表结果，先缓存在reducer的内存中，然后让后面的表会流式进入reducer中，和其进行join

下边以一个mr任务，来解释hive join 的工作机制

hive join 的工作机制

Common Join 工作机制

Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join

Map阶段

先读取源表数据，然后经Map处理后进行输出，数据输出的形式为key/value，key为on条件中的某一列（如果Join有多个关联键，则以这些关联键的组合作为key），value为select或者where中需要用到的列（同时在value中还会包含表的Tag信息，用于标明此value对应哪个表）

Shuffle阶段

按照key进行hash,结果相同的被送往到同一reducer中

Reduce阶段

按照key完成join操作（期间通过Tag来识别不同表中的数据）

Map Join 工作机制

hive join 的工作机制_数据

先运行一个Task A，（它是一个Local Task，在客户端本地执行的Task），负责扫描小表b的数据，将其转换成一个HashTable的数据结构，并写入本地的文件中，之后将该文件加载到DistributeCache中
在运行一个Task B，该任务是一个没有Reduce的mr，启动MapTasks扫描大表a，根据a的每一条记录去和DistributeCache中b表对应的HashTable关联，并直接输出结果，由于MapJoin没有Reduce，所以由Map直接输出结果文件，有多少个Map Task，就有多少个结果文件

标签：Map,Join,hive,key,mr,join,机制
From： https://blog.51cto.com/u_14009243/5975081

hive 视图
目录hiveoutlinehive视图简介hive视图优点hive视图创建hiveoutline链接hive视图简介hive中的视图（view）是一种虚拟表，只保存......
转贴：浅析 Linux 的国际化与本地化机制
Linux是一个国际化的操作系统，它的工具集和设备驱动程序均支持多语言操作。本文通过分析glibc中实现国际化和本地化机制的函数和命令工具集以及从程序开发者、翻译......
关于left join、right join和join 区别
leftjoin以表一为主查询结果为表一全部数据和与表二有关联的交集数据 select*from表一leftjoin表二on表一条件=表二条件rightjoin以表二为主查询结......
hrnet的get_joint
他的第18个keypoint存的是平均坐标。defget_joints(self,anno):num_people=len(anno)area=np.zeros((num_people,1))joints=np.zeros(......
在k8s集群中Kubernetes仪表板dashboard使用RABC机制限制指定用户针对指定名称空间中的
公众号关注「WeiyiGeek」本章目录：Dashboard-利用rbac机制限制指定用户针对指定名称空间中的资源进行UI管理(2)Dashboard-利用rbac机制限制指定用户针对指定名称空间中的资......
易基因｜深度综述：癌症中RNA修饰机制的遗传和表观遗传失调（m6A+m1A+m5C+ψ）
大家好，这里是专注表观组学十余年，领跑多组学科研服务的易基因。2022年11月12日，《TrendsGenet》杂志发表了题为“GeneticandepigeneticdefectsoftheRNAmodifica......
Hive 连续登录问题
需求说明有以下一个表，记录了用户登录数据desctemp_user_login;day_idstringuser_idintif_loginintselect*fromtemp_user_loginorderbyuser_id,da......
Hive 自定义函数
Hive自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UD......
python进程之进程池、线程池与异步回调机制
fromconcurrent.futuresimportProcessPoolExecutor,ThreadPoolExecutorimportosimporttimeimportrandom#1.产生含有固定数量线程的线程池#t_pool=Thread......
win32编程 -- 消息机制（二）
我知道你最近很累，是那种看不见的身体上精神上的以及对未来的那种无力感，但请一定要坚持下去。。。---- 网易云热评一、消息的获取1、GetMessage：从系统获取消息，将消息从系......

hive join 的工作机制

目录

hive join 简介

hive join 的工作机制

Common Join 工作机制

Map Join 工作机制

相关文章

赞助商

阅读排行