首页 > 其他分享 >10.13

10.13

时间:2023-10-14 17:45:47浏览次数:33  
标签:10 string ip traffic article video 10.13

石家庄铁道大学2023年秋季

  2021 课堂测试试卷—数据清洗

课程名称: 大型数据库应用技术  任课教师: 王建民   考试时间: 180 分钟

 

Result文件数据说明:

Ip:106.39.41.166,(城市)

Date:10/Nov/2016:00:01:02 +0800,(日期)

Day:10,(天数)

Traffic: 54 ,(流量)

Type: video,(类型:视频video或文章article)

Id: 8701(视频或者文章的id)

测试要求:

1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。

两阶段数据清洗:

(1)第一阶段:把需要的信息从原始日志中提取出来

ip:    199.30.25.88

time:  10/Nov/2016:00:01:03 +0800

traffic:  62

文章: article/11325

视频: video/3235

(2)第二阶段:根据提取出来的信息做精细化操作

ip--->城市 city(IP)

date--> time:2016-11-10 00:01:03

day: 10

traffic:62

type:article/video

id:11325

(3)hive数据库表结构:

create table data(  ip string,  time string , day string, traffic bigint,

type string, id   string )

2、数据分析:在HIVE统计下列数据。

(1)统计最受欢迎的视频/文章的Top10访问次数 (video/article)

(2)按照地市统计最受欢迎的Top10课程 (ip)

(3)按照流量统计最受欢迎的Top10课程 (traffic)

3、数据可视化:

将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。

 

标签:10,string,ip,traffic,article,video,10.13
From: https://www.cnblogs.com/zhaoshengfu/p/17764456.html

相关文章

  • 10.13每日总结
    今日代码:200行今日时间:3小时学习内容:今天我学习了大数据的数据的清晰,将数据导入到have数据库中,实现了信息的精细化操作。实现数据可视化。但是我不会,只能在网上查阅资料解决这一问题,目前做到了数据的清晰。......
  • 每日总结10.13
    今天是一个愉快的休息日。下午,我去美甲店做了个精致的美甲,让自己感觉焕然一新。之后,和室友一起去了一家喜爱的餐厅用餐,我们聊得很开心,分享了彼此的近况和快乐。晚上回到家后,我选择了放松一下,给自己一段时间来恢复精力。我欣赏一些音乐,泡了一杯香浓的茶,让自己完全放松下来。随后,我......
  • 10.13(子类和父类覆盖)
    packagehomework;publicclasstext{publicStringtoString(){return"FruittoString.";}publicstaticvoidmain(Stringargs[]){textf=newtext();System.out.println("f="+f);......
  • 10.13
    子类与父类有一样的方法和字段publicclassParentChildTest{ publicstaticvoidmain(String[]args){ Parentparent=newParent(); parent.printValue(); Childchild=newChild(); child.printValue(); parent=child; parent.printValue(); parent.myValue++; p......
  • 大二打卡(10.13)
    今天做了什么:今天自己捣鼓了俩小时,还是没能从idea上把程序实现出来,一直连不上服务器,运行程序就是弹出404的网页,然后找同学帮忙,同学提供了一个新的方法,用php,从八点开始,两个小时,终于,,太好了,心里的火终于能灭了遇到什么问题:遇到困难不要怕,总有人会,要求助明天怎么做:这一周老师们都......
  • 10.13动手动脑
       结论:      ......
  • 10.13
      结论:         ......
  • 10.13
    10.13   结论:     ......
  • 10.13 模拟赛
    7:40~8:10看完题,t1很有思路,t2能贪,t3应该能做,但是不好写,t4想到了转移,但是不对8:10~8:50发现自己t1的做法需要维护的东西很多,于是狠心写了一个线段树和树状数组8:50~9:40t2感觉不难,好像直接贪心就行,没发现什么反例,于是很愉快的写完了9:40~10:50不知道为什么特别困,可能没睡好,......
  • 10.13总结
    1.完成了课堂测试2.学习了关于maven项目编写UDF自定义函数,打包到hive中使用,用于清洗数据将hive上的数据表导出到linux的目录下,再导出到本机后导入可视化SQLspingboot创建工程将数据库中的数据进行echart显示......