首页 > 其他分享 >Hive 实操案例五:统计每个类别中 Top10 的视频热度

Hive 实操案例五:统计每个类别中 Top10 的视频热度

时间:2024-06-30 19:00:23浏览次数:3  
标签:视频 views Int Top10 cg videoid Hive 实操 类别

一、数据表结构

视频表 t_video

字段注释描述
videoId视频唯一 id(String)11 位字符串
uploader视频上传者(String)上传视频的用户名 String
age视频年龄(int)视频在平台上的整数天
category视频类别(Array<String>上传视频指定的视频分类
length视频长度(Int)整形数字标识的视频长度
views观看次数(Int)视频被浏览的次数
rate视频评分(Double)满分 5 分
Ratings流量(Int)视频的流量,整型数字
conments评论数(Int)一个视频的整数评论数
relatedId相关视频 id(Array<String>相关视频的 id,最多 20 个

二、具体实现

-- 统计每个类别中的视频热度 Top10
/**
  思路:
    1.先使用 explode 函数将 category 字段扁平化
    2.按照 videoid 和 扁平化后的类别字段分组聚合统计观看次数
    3.使用排序窗口函数按类别分组、观看次数降序排序进行组内编号
    4.使用 where 子句筛选每个类别组内的 top10 数据
*/
SELECT 
	cg,
	videoid,
	`views`,
	rn
FROM 
(
	SELECT 
		cg,
		videoid,
		`views`,
		DENSE_RANK() over(PARTITION by cg ORDER by `views` desc) as rn 
	FROM 
	(
		SELECT 
			videoid,
			cg,
			SUM(`views`) as `views`
		FROM t_video gv lateral view explode(category) adtable as cg 
		group by cg, videoid 
	) t1
) t2
WHERE rn <= 10;

标签:视频,views,Int,Top10,cg,videoid,Hive,实操,类别
From: https://blog.csdn.net/weixin_44480009/article/details/140078265

相关文章

  • AI绘画Stable Diffussion 实操教程: 真人图片秒变动漫风,亲手绘制你的专属动漫头像
    大家好,我是向阳你是否曾幻想过自己置身于动漫世界,拥有那些令人羡慕的二次元特征?随着人工智能技术的飞速发展,这一幻想已不再遥不可及。在本文中,我们将一起揭开StableDiffusion技术的神秘面纱,探索如何利用这一技术将你的真实照片转换成充满魅力的动漫形象。我们将一步步引导......
  • 【Python爬虫实战项目】Python爬取Top100电影榜单数据并保存csv文件(附源码)
    前言今天给大家介绍的是Python爬取Top100电影榜单数据保存csv文件,在这里给需要的小伙伴们帮助,并且给出一点小心得。开发工具Python版本:3.6相关模块:requests模块time模块parsel模块csv模块环境搭建安装Python并添加到环境变量,pip安装需要的相关模块即可。文中......
  • Nginx实操学习
    1.配置文件分析1.nginx官网nginx官网:http://nginx.org/en/nginx文档:http://nginx.org/en/docs/nginx官网(中文):http://nginx.p2hp.com/nginx文档(中文):http://nginx.p2hp.com/en/docs/index.html推荐看英文2.配置文件(带注释)#usernobody;worker_processes1;......
  • 玩转zencart自助搭建卖货商城,zencart外贸建站完全实操手册-36节课
    课程目录:1-你也可用zencart自助建站1.mp42-Zencart它能做什么1.mp43-Zencart使用所需环境和条件1.mp44-zencart环境工具xampp安装1.mp45-zencart安装演示1.mp46-模板切换不带mysql数据库1.mp47-手动配置带sql数据库模板1.mp48-网站标题关键词描述设置1.mp49-网站logo......
  • 20-OWASP top10--XXS跨站脚本攻击
    目录什么是xxs?XSS漏洞出现的原因XSS分类反射型XSS储存型XSSDOM型XSSXSS漏洞复现XSS的危害或能做什么?劫持用户cookie钓鱼登录XSS获取键盘记录 同源策略(1)什么是跨域(2)同源策略(3)同源策略修改(允许所有人跨域访问)XSS绕过简单的绕过方法 使用HTML进行编码绕......
  • Hadoop+Hive超全笔记 一站式搞定!!
    Hadoophadoop集群的组成hadoop常用端口HDFS常用shell命令HDFS的原理、机制块和副本edits和fsimage文件HDFS的三大机制HDFS数据上传、写入原理(写流程)【重点】HDFS数据读取(读流程)【重点】原数据存储流程【重点】安全模式归档机制(小文件)垃圾桶机制MapReduce底层原......
  • Spark SQL与Hive的整合
    在大数据时代,处理和分析海量数据集的能力变得至关重要。ApacheSpark和Hive作为两个强大的数据处理工具,在数据仓库和分析领域有着广泛的应用。本文将探讨如何将SparkSQL与Hive整合,以及如何利用这一整合来提高数据处理的效率和灵活性。SparkSQL简介SparkSQL是ApacheSpark的一......
  • 数据仓库Hive
    ApacheHive安装、配置与基本操作指南ApacheHive是一个基于Hadoop的数据仓库工具,可以将结构化数据文件映射为一张表,并提供类SQL查询功能。本文将结合两篇详细的技术文档,介绍Hive的安装、配置以及基本操作。一、Hive的安装与配置1.环境准备在安装Hive之前,需要确保......
  • 数据仓库之Hive
    ApacheHive是一个基于Hadoop的数据仓库软件,它提供了数据摘要、查询和分析的大数据能力。Hive通过类似于SQL的HiveQL语言,使用户能够在不深入了解MapReduce的情况下进行大数据处理和分析。以下是对Hive的详细介绍:1.核心概念HiveQL:Hive提供了一种类似于SQL的查询语言,称为Hiv......
  • 【数据结构】顺序表实操——通讯录项目
    Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎~~......