首页 > 其他分享 >10.13每日总结

10.13每日总结

时间:2023-10-13 11:49:33浏览次数:35  
标签:总结 -- top id traffic journal 10.13 type 每日

今天完成了大数据的测试以下是相关代码,代码没有最后的可视化展示

代码作者万事胜意k的主页 - 博客园 (cnblogs.com)

## 数据库

**创建数据库**

```sql
create database journal;
```

**切换到数据库**

```sql
use journal
```

**建立初始表**

```sql
--建立初始表
create table data(
`ip` string comment "城市",
`time` string comment "时间",
`day` string comment "天数",
`traffic` double comment "流量",
`type` string comment "类型 视频/文章",
`id` string comment "视频或者文章的id"
)
row format delimited
fields terminated by ','
lines terminated by '\n';
```

**数据导入**

```sql
--导入数据
load data local inpath '/home/hadoop/result.txt' into table data;
```

**验证**

```sql
SELECT * from data d ;
```

![image-20231013102914842](https://ysk-de-img.oss-cn-beijing.aliyuncs.com/img/202310131029952.png)

## 数据清洗

```sql
-- 数据清洗,将 10/Nov/2016:00:01:02 +0800 修改为 2016-11-10 00:01:03 形式
create table newdata as
select ip,
date_format(from_unixtime(unix_timestamp(`time`,'dd/MMM/yyyy:HH:mm:ss Z'), 'yyyy-MM-dd HH:mm:ss'),
'yyyy-MM-dd HH:mm:ss') as `time`,
day,
traffic,
type,
id
from data;
```

**统计最受欢迎的视频/文章的Top10访问次数**

```sql
--统计最受欢迎的视频/文章的Top10访问次数
CREATE TABLE top_visits AS
SELECT type, id, COUNT(*) AS visit_count
FROM newdata n
GROUP BY type, id
ORDER BY visit_count DESC
LIMIT 10;
```

**按照地市统计最受欢迎的Top10课程**

```sql
CREATE TABLE top_courses_by_city AS
SELECT ip , type, id, COUNT(*) AS visit_count
FROM newdata
GROUP BY ip, type, id
ORDER BY visit_count DESC
LIMIT 10;
```

**按照流量统计最受欢迎的Top10课程**

```sql
CREATE TABLE top_courses_by_traffic AS
SELECT type, id, SUM(traffic) AS total_traffic
FROM newdata
GROUP BY type, id
ORDER BY total_traffic DESC
LIMIT 10;
```

## 数据导入到mysql

**创建数据库**

```sql
create database journal
```

 

**统计最受欢迎的视频/文章的Top10访问次数**

```sql
CREATE TABLE `top_visits` (
`type` varchar(20) DEFAULT NULL,
`id` varchar(20) DEFAULT NULL,
`visit_count` int(11) DEFAULT NULL
)
```

**导出**

```shell
bin/sqoop export \
--connect jdbc:mysql://node1:3306/journal \
--username root \
--password 123456 \
--table top_visits \
--export-dir /user/hive/warehouse/journal.db/top_visits --input-fields-terminated-by '\001' \
--columns 'type,id,visit_count'
```

**按照地市统计最受欢迎的Top10课程**

```sql
CREATE TABLE `top_courses_by_city` (
`ip` VARCHAR(255),
`type` VARCHAR(255),
`id` VARCHAR(255),
`visit_count` BIGINT
);
```

**导出**

```shell
bin/sqoop export \
--connect jdbc:mysql://node1:3306/journal \
--username root \
--password 123456 \
--table top_courses_by_city \
--export-dir /user/hive/warehouse/journal.db/top_courses_by_city --input-fields-terminated-by '\001' \
--columns 'ip,type,id,visit_count'
```

**按照流量统计最受欢迎的Top10课程**

**创建表**

```sql
CREATE TABLE `top_courses_by_traffic` (
`type` VARCHAR(255),
`id` VARCHAR(255),
`total_traffic` DOUBLE
);
```

**导出**

```sql
bin/sqoop export \
--connect jdbc:mysql://node1:3306/journal \
--username root \
--password 123456 \
--table top_courses_by_traffic \
--export-dir /user/hive/warehouse/journal.db/top_courses_by_traffic --input-fields-terminated-by '\001' \
--columns 'type,id,total_traffic'
```

标签:总结,--,top,id,traffic,journal,10.13,type,每日
From: https://www.cnblogs.com/2351920019xin/p/17761709.html

相关文章

  • 做过destoon和discuz之后的总结。
    做过了destoon和discuz这两种相对复杂一点的模版二次开发以后,总想写点总结,对再次学习其他模版有所启迪。1、给我的印象,PHP模版,大都是include各种文件,而且include的类型也不只一种,如:includetemplate是用模版引擎解析模版, includelibfile是加载后台文件(discuz中的),当我们接触一......
  • thrift-习题课 10.13
    游戏端game:match_client匹配系统端match_system:match_server、save_client数据存储端:save_server 评测方式:注意:每次评测前重启server(1)开个tmux,分左右,左边进服务器cd/match_system/src运行./main右边homeworktest6(2)......
  • /usr/bin/ld: cannot find -lxxx 的解决方法总结
    问题原因:1、系统没有按照相应的lib2、相对应的lib版本不对3、lib的symboliclink不对,没有连接到正确的函数库文件(so)解决:对于1,2种情况:apt-getinstalllibxxx-dev对于3中情况:可以先用locate和find找到指定的lib文件,查看链接文件是否正确的指向了我们希望的lib,如果不是,......
  • ConfigureAwait(false) 原理以及注意事项总结
    解决什么问题?1、避免线程死锁2、可能的性能提升存在的问题:1、当代码在另一个线程上继续时,线程同步上下文将丢失,因为状态机改变。这里最大的损失是你会失去归属于线程的Culture和Language,其中包含了国家语言时区信息,以及来自原始线程的HttpContext.Current之类的信息。因此,如......
  • 博学谷学习记录 自我总结 用心分享 | RocketMQ刨析
    RocketMQ是一个分布式开放消息中间件,底层基于队列模型来实现消息收发功能。RocketMQ集群中包含4个模块:Namesrv,Broker,Producer,Consumer。主要功能削峰填谷(主要解决瞬时写压力大于应用服务能力导致消息丢失、系统奔溃等问题)系统解耦(解决不同重要程度、不同能力级别......
  • 博学谷学习记录 自我总结 用心分享 | Kafka刨析
    基本概念Kafka 体系架构Kafka体系架构包括若干Producer、若干Broker、若干Consumer,以及一个 ZooKeeper 集群。在Kafka中还有两个特别重要的概念—主题(Topic)与分区(Partition)。Kafka中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到Kafka集群......
  • html初学内容总结
    HTMLHTML基础认识网页组成显式内容:文本图片视频音频超链接按钮隐式内容:div段落换行加粗斜体下划线等代码如何转换成网页依靠的是浏览器的渲染和解析将代码翻译成网页渲染引擎(了解)渲染引擎(浏览器内核):浏览器中专门对代码进行解析渲染的部分浏览器出品的......
  • 10.13算法
    你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。给定一个代表每个房屋存放金额的非负整数数组,计算你不触动警报装置的情况下,一夜之内能......
  • 每日总结1012
    今天上了软件设计模式,课上讲了解释器模式和迭代器模式两种。然后是人机交互技术,课上完成了系统界面设计原型今日代码:代码量:300行学习时间:6h(算上课)晚上背了单词,做了一些软考的选择题。......
  • 每日总结20231012
    代码时间(包括上课)8h代码量(行):300行博客数量(篇):1篇相关事项:1、今天是周四,今天上午上的是软件设计和软件需求分析,软件设计讲的是解释器模式和迭代器模式,软件需求分析讲的是如何确定业务范围。2、今天下午上的是人机交互技术,上的是上机课,写的是期末的两个报告和大作业。3、今天还......