首页 > 其他分享 >每日总结07

每日总结07

时间:2023-10-13 15:56:28浏览次数:47  
标签:总结 10 07 ip 每日 video article traffic string

Result文件数据说明:

Ip:106.39.41.166,(城市)

Date:10/Nov/2016:00:01:02 +0800,(日期)

Day:10,(天数)

Traffic: 54 ,(流量)

Type: video,(类型:视频video或文章article)

Id: 8701(视频或者文章的id)

测试要求:

1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。

两阶段数据清洗:

(1)第一阶段:把需要的信息从原始日志中提取出来

ip:    199.30.25.88

time:  10/Nov/2016:00:01:03 +0800

traffic:  62

文章: article/11325

视频: video/3235

(2)第二阶段:根据提取出来的信息做精细化操作

ip--->城市 city(IP)

date--> time:2016-11-10 00:01:03

day: 10

traffic:62

type:article/video

id:11325

(3)hive数据库表结构:

create table data(  ip string,  time string , day string, traffic bigint,

type string, id   string )

2、数据分析:在HIVE统计下列数据。

(1)统计最受欢迎的视频/文章的Top10访问次数 (video/article)

(2)按照地市统计最受欢迎的Top10课程 (ip)

(3)按照流量统计最受欢迎的Top10课程 (traffic)

3、数据可视化:

将统计结果倒入MySql数据库中,通过图形化展示的方式展现出来。

标签:总结,10,07,ip,每日,video,article,traffic,string
From: https://www.cnblogs.com/mine-my/p/17762352.html

相关文章

  • OSError: [Errno 28] No space left on device的原因总结
    简单总结下碰到这个问题可能的原因:最常见的,就是磁盘空间真的满了,这个时候你只能rm一些不需要的文件来解决问题还有可能是inode不足了,这个跟磁盘当初是怎么格式化的有关,如果有太多细碎文件确实有可能出现明明还有空间但是inode却用完了的情况。可以通过df-ih来查看inode使用......
  • Gym100078F Formula
    非常好,竟然是有思维的模拟题。换句话讲就是有模拟的思维题题意:给定一个由与或非组成的逻辑表达式,你需要把他化简成一个变量不重复的与或非逻辑表达式或报告无解。发现如果允许变量重复了,这个逻辑表达式没有什么性质,任何一种真值表都可以通过合适的构造得来。所以题目相当于直接......
  • PHP命令空间namespace及use的用法实践总结
    使用namespace的目的:团队合作项目时,避免与团队其它成员新建的类发生冲突;个人负责项目时,避免前后新建的类发生冲突; 据个人理解,用到所需要的类时,需要先require或include引入,所以会发生类重定义的错误的前提是:两个相同命名的类都有被引入。目前有些php框架会自动加载(即include)所......
  • C++不常见语法分析总结
    成员初始化列表用于在构造对象时给类或者结构体成员设置初值。语法为:构造函数():成员1(参数值1),成员2(参数值2)...{}成员初始化列表的作用和优点:可以为非静态数据成员赋予初始值初始化顺序与成员在类中的定义顺序一致效率比在构造函数体内赋值初始化高可以为只......
  • react中关于父子组件传值已经方法调用总结
    问题:1、封装自定义组件后,父子组件的传值与方法调用则是必须进行的操作,但是在网上看到多种的方法后,有的方法一个组件下好使,但是换一个组件后就不好用了有的方法根本就不好使,不知道是什么原因2、父子组件之间的传值都是用props这个毫无疑问,也没有什么问题3、父子组件方法调用......
  • 10.13每日总结
    今天完成了大数据的测试以下是相关代码,代码没有最后的可视化展示代码作者万事胜意k的主页-博客园(cnblogs.com)##数据库**创建数据库**```sqlcreatedatabasejournal;```**切换到数据库**```sqlusejournal```**建立初始表**```sql--建立初始表createtabledata(`ip......
  • 做过destoon和discuz之后的总结。
    做过了destoon和discuz这两种相对复杂一点的模版二次开发以后,总想写点总结,对再次学习其他模版有所启迪。1、给我的印象,PHP模版,大都是include各种文件,而且include的类型也不只一种,如:includetemplate是用模版引擎解析模版, includelibfile是加载后台文件(discuz中的),当我们接触一......
  • /usr/bin/ld: cannot find -lxxx 的解决方法总结
    问题原因:1、系统没有按照相应的lib2、相对应的lib版本不对3、lib的symboliclink不对,没有连接到正确的函数库文件(so)解决:对于1,2种情况:apt-getinstalllibxxx-dev对于3中情况:可以先用locate和find找到指定的lib文件,查看链接文件是否正确的指向了我们希望的lib,如果不是,......
  • ConfigureAwait(false) 原理以及注意事项总结
    解决什么问题?1、避免线程死锁2、可能的性能提升存在的问题:1、当代码在另一个线程上继续时,线程同步上下文将丢失,因为状态机改变。这里最大的损失是你会失去归属于线程的Culture和Language,其中包含了国家语言时区信息,以及来自原始线程的HttpContext.Current之类的信息。因此,如......
  • 博学谷学习记录 自我总结 用心分享 | RocketMQ刨析
    RocketMQ是一个分布式开放消息中间件,底层基于队列模型来实现消息收发功能。RocketMQ集群中包含4个模块:Namesrv,Broker,Producer,Consumer。主要功能削峰填谷(主要解决瞬时写压力大于应用服务能力导致消息丢失、系统奔溃等问题)系统解耦(解决不同重要程度、不同能力级别......