首页 > 数据库 >hive数据清洗,导入mysql

hive数据清洗,导入mysql

时间:2023-10-12 21:44:20浏览次数:45  
标签:string -- top hive courses 导入 traffic mysql type

-- 用于清洗的表
create table data1
(
`ip` string comment '城市',
`date1` string comment '日期',
`day` string comment '天数',
`traffic` double comment '流量',
`type` string comment '类型:视频video或文章article',
`id` string comment '视频或者文章的id'
)
row format delimited
fields terminated by ','
lines terminated by '\n';


load data local inpath '/home/hadoop/result.txt' into table data1;


select * from data1 limit 1000;


insert overwrite table data1
select ip,
date_format(from_unixtime(unix_timestamp(date1, 'dd/MMM/yyyy:HH:mm:ss Z'), 'yyyy-MM-dd HH:mm:ss'),
'yyyy-MM-dd HH:mm:ss') as date1,
day,
traffic,
type,
id
from data1;


select * from data1 limit 1000;


CREATE TABLE top_visits AS
SELECT type, id, COUNT(*) AS visit_count
FROM data1
GROUP BY type, id
ORDER BY visit_count DESC
LIMIT 10;


select * from top_visits;


CREATE TABLE top_courses_by_city AS
SELECT ip , type, id, COUNT(*) AS visit_count
FROM data1
GROUP BY ip, type, id
ORDER BY visit_count DESC
LIMIT 10;

 

select * from top_courses_by_city;

 

 

CREATE TABLE top_courses_by_traffic AS
SELECT type, id, SUM(traffic) AS total_traffic
FROM data1
GROUP BY type, id
ORDER BY total_traffic DESC
LIMIT 10;


select * from top_courses_by_traffic;

 

bin/sqoop export \
--connect "jdbc:mysql://node1:3306/test?useUnicode=true&characterEncoding=utf-8" \
--username root \
--password 123456 \
--table top_visits \
--export-dir /user/hive/warehouse/top_visits \
--fields-terminated-by "\001" \
--input-null-non-string '\\N'

 


bin/sqoop export \
--connect "jdbc:mysql://node1:3306/test?useUnicode=true&characterEncoding=utf-8" \
--username root \
--password 123456 \
--table top_courses_by_city \
--export-dir /user/hive/warehouse/top_courses_by_city \
--fields-terminated-by "\001" \
--input-null-non-string '\\N'

 


bin/sqoop export \
--connect "jdbc:mysql://node1:3306/test?useUnicode=true&characterEncoding=utf-8" \
--username root \
--password 123456 \
--table top_courses_by_traffic \
--export-dir /user/hive/warehouse/top_courses_by_traffic \
--fields-terminated-by "\001" \
--input-null-non-string '\\N'

标签:string,--,top,hive,courses,导入,traffic,mysql,type
From: https://www.cnblogs.com/xiao-hong111/p/17760656.html

相关文章

  • sql注入(mysql的重要语句语法)
    查询当前数据库服务器所有数据库showdatabases;选中某个数据库use数据库名查询当前数据库所有的表showtables;查询某表所有数据select*fromt1;(whereid=2;)union合并查询2个特性:前面的查询语句和后面的查询语句结果互不干扰前面的查询语句的字段数量和后面......
  • mysql 物理备份xtrabackup
    1.优缺点优点:a.备份过程快速可靠b.支持增量备份c.备份过程不会打断正在执行的事务d.能够基于压缩等功能节约磁盘和空间e.自动实现备份验证f.还原速度快缺点:a.只能对innodb表进行增备,myisam表备份是全备b.对myisam表进行备份时要对全库加readlock,阻塞写操作,若备份在从库上进行会......
  • 转换日期数据的格式函数(hive)
    1、转换成标准格式--from_unixtime和unix_timestamp--默认情况下转成yyyy-MM-dd:HH:mm:ssselectfrom_unixtime(unix_timestamp('16/08/2018','dd/MM/yyyy'));2、原文件字段含有英文--月份英文selectfrom_unixtime(unix_timestamp('16/Aug/2018','dd/MMM/yyyy'......
  • import, export,export default,exports - 导入导出方法总结
    1.Export注意:在一个模块中,export可以向外暴露多个注意;使用export导出的成员,必须严格按照导出时候的名称,不能自定义,来使用{}按需接收注意;使用export导出的成员,如果要换个名称,可以使用as起别名模块是独立的文件,该文件内部的所有的变量外部都无法获取。如果希望获取某个变......
  • Oracle数据库导入、导出详解
    Oracle11g数据库导入导出方式传统方式【exp(导出)和(imp)导入】数据泵方式【expdp导出和(impdp)导入】第三方工具【PL/sqlDevelpoer】一、什么是数据库导入导出?Oracle11g数据库的导入/导出,就是我们通常所说的Oracle数据的还原/备份。 数据库导入:把.dmp格式文件从本地导入到......
  • 【2023年10月12日】stf61-MySQL数据库
     stf61-MySQL数据库前言1)为什么学?● 常见的笔试题● 有利于更好的开展测试工作2)学什么?理论:基本的术语和概念实操:数据库操作、表操作、数据操作、其他常见数据库功能3)怎么学?多在实训环境里练习,在练习中掌握 理论 数据库系统: 表:8条记录/行,6个字段/列 ......
  • pt-slave-repair - 自动修复MySQL主从同步数据
    pt-slave-repair介绍MySQL主从复制作为一种常见的数据同步方式,有时候会出现同步错误导致同步中断的情况。手动修复这些同步错误通常需要耗费时间和精力,并且对于不熟悉MySQL复制的人来说比较困难。pt-slave-repair是对原有pt-slave-restart工具的补充,它提供自动修复MySQL主从同步......
  • MySQL命令行监控工具 - mysqlstat
    mysqlstat是一个命令行工具,用于实时监控和分析MySQL服务器的性能指标和相关信息。它可以帮助DBA(数据库管理员)和开发人员定位和解决数据库性能问题。以下是mysqlstat工具的主要功能:实时监控:mysqlstat可以实时监控MySQL服务器的QPS(每秒查询数)、TPS(每秒事务数)以及网络......
  • nacos开机自启无法连接上本机的Mysql
    nacos和mysql处于同一台服务器的情况下才会遇到我说的这个问题。一、遇到的问题如下:nacos在设置了开机自启动脚本/usr/lib/systemd/system/nacos.service,并且设置了systemctlenablenacos。mysql给nacos使用的用户开启了%和localhost均可连接的权限。这种情况下,nacos开机自......
  • Spring Boot + EasyExcel 导入导出,好用到爆,可以扔掉 POI 了
    1、EasyExcelEasyExcel是阿里巴巴开源poi插件之一,主要解决了poi框架使用复杂,sax解析模式不容易操作,数据量大起来容易OOM,解决了POI并发造成的报错。主要解决方式:通过解压文件的方式加载,一行一行的加载,并且抛弃样式字体等不重要的数据,降低内存的占用。EasyExcel优势注解式自定义操作......