Hive笔记之collect_list/collect_set（列转行）

时间：2023-02-23 14:55:39浏览次数：34

标签：username set group list collect video

Hive中collect相关的函数有collect_list和collect_set。

它们都是将分组中的某列转为一个数组返回，不同的是collect_list不去重而collect_set去重。

做简单的实验加深理解，创建一张实验用表，存放用户每天点播视频的记录：

1 2 3 4 5 create table t_visit_video ( username string, video_name string ) partitioned by (day string) row format delimited fields terminated by ',';

在本地文件系统创建测试数据文件：

1 2 3 4 5 6 7 8 张三,大唐双龙传 李四,天下无贼 张三,神探狄仁杰 李四,霸王别姬 李四,霸王别姬 王五,机器人总动员 王五,放牛班的春天 王五,盗梦空间

将数据加载到Hive表：

1	`load` `data` `local` `inpath` `'/root/hive/visit.data'` `into` `table` `t_visit_video partition (day='20180516');`

按用户分组，取出每个用户每天看过的所有视频的名字：

1	`select` `username, collect_list(video_name)` `from` `t_visit_video` `group` `by` `username ;`

但是上面的查询结果有点问题，因为霸王别姬实在太好看了，所以李四这家伙看了两遍，这直接就导致得到的观看过视频列表有重复的，所以应该增加去重，使用collect_set，其与collect_list的区别就是会去重：

1	`select` `username, collect_set(video_name)` `from` `t_visit_video` `group` `by` `username;`

李四的观看记录中霸王别姬只出现了一次，实现了去重效果。

突破group by限制

还可以利用collect来突破group by的限制，Hive中在group by查询的时候要求出现在select后面的列都必须是出现在group by后面的，即select列必须是作为分组依据的列，但是有的时候我们想根据A进行分组然后随便取出每个分组中的一个B，代入到这个实验中就是按照用户进行分组，然后随便拿出一个他看过的视频名称即可：

1	`select` `username, collect_list(video_name)[0]` `from` `t_visit_video` `group` `by` `username;`

video_name不是分组列，依然能够取出这列中的数据。

标签：username,set,group,list,collect,video
From： https://www.cnblogs.com/DDDJ/p/17147939.html

TypeScript & Map & Set All In One
TypeScript&Map&SetAllInOneMap&SetvarMap:MapConstructornew<number,number>(iterable?:Iterable<readonly[number,number]>|null|undefined)=>......
集合类再探：不可变类的好处，Collector接口详解，使用内部迭代
集合类再探注：本文使用的pom依赖见文末。......
dev控件-treelist多列显示
经测试，如果需要多列显示，必须通过设计器配置KeyFieleName和ParentFieldName两个字段，通过代码无效。可以通过设计界面的AddColumn菜单，为TreeList添加多列，并绑定相关的字段，......
过滤器Filter和监听器Listener
1、Filter（重点）Filter：过滤器，用来过滤网站的数据处理中文乱码登录验证...Filter开发步骤：（pom文件中）导包<dependencies><dependency><groupId>javax......
web.xml is missing and <failOnMissingWebXml> is set to true
问题说明：pom.xml报错：web.xmlismissingand<failOnMissingWebXml>issettotrue；解决方法：在pom.xml中加入下面代码就不报错了。但web.xml还是没有生成：如果还是要生成......
python由于括号问题 list.apend 报'builtin_function_or_method' object is not subsc
今天写几行代码解决工作问题，程序运行报报'builtin_function_or_method'objectisnotsubscriptable 错误，将代码简写如下litterPigs=[]forboarinrange(0,6):......
Alist 挂载阿里云盘、百度网盘、迅雷云盘、123网盘等
2023年1月5日免费资源 AList开源项目地址：https://github.com/alist-org/alist1.百度网盘首先需要获取到刷新令牌登入你的百度网盘以后，再【点击这里】来获取......
vue3介绍-vue3创建项目-setup函数-ref和reactive-计算属性和监听-生命周期-toRefs-scr
目录vue3介绍-vue3创建项目-setup函数-ref和reactive-计算属性和监听-生命周期-toRefs-scriptsetup的作用和lang=ts-vue后台管理模板昨日内容回顾今日内容概要今日内容详......
vue3介绍 vue3创建项目扩展vite setup函数 ref和reactive 计算属性和监听属性生命周
目录回顾vue3介绍vue的变化组合式API与配置项APIvue3创建项目扩展之vite使用步骤setup函数ref和reactiverefreative总结：计算属性和监听属性计算属性获取get 修改set监听属......
vue3 介绍、vue3 创建项目、setup函数、ref和reactive、计算属性和监听属性、生命周期
目录1vue3介绍2vue3创建项目2.1使用vue-cli2.2vite3setup函数4ref和reactive5计算属性和监听属性5.1计算属性5.2监听属性6生命周期7toRefs8scriptsetup的作......

Hive笔记之collect_list/collect_set（列转行）

突破group by限制

相关文章

赞助商

阅读排行