需求
统计今日总消息量 统计今日每小时消息量、发送和接收用户数
统计今日各地区发送消息数据量
统计今日发送消息和接收消息的用户数
统计今日发送消息最多的Top10用户
统计今日接收消息最多的Top10用户
统计发送人的手机型号分布情况
统计发送人的设备操作系统分布情况
约30万条数据,需要文件的同学可以找我免费领取
操作
--如果数据库已存在就删除
drop database if exists db_msg cascade ;
--创建数据库
create database db_msg ;
--切换数据库
use db_msg ;
--列举数据库
show databases ;
然后进行上传文件到HDFS中
将数据插入到表中并验证:
数据清洗:
问题1:当前数据中,有一些数据的字段为空,不是合法数据
where过滤,where length(sender_gps)>0
问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理
date hour 函数 date(msg_time),hour(msg_time)
问题3:需求中,需要对经度和维度构建地区的可视化地图,但是数据中GPS经纬度为一个字段,不好处理
split函数split(sender_gps,',')[0]
split(sender_gps,',')[0] 维度
需求4:将ETL以后的结果保存到一张新的Hive表中
需求指标统计
指标1:统计今日消息总量
指标2:统计每小时消息量、发送和接收用户数
指标3:统计今日各地区发送消息总量
指标4:统计今日发送和接收用户人数
指标5:统计接收消息条数最多的Top10用户
指标6:统计发送人的手机型号分布情况
再通过FineBI
标签:--,发送,案例,消息,简单,msg,接收,统计,实操 From: https://blog.csdn.net/fly66666666/article/details/136690250