首页 > 其他分享 >每日总结(数据清洗)

每日总结(数据清洗)

时间:2023-09-22 23:24:46浏览次数:38  
标签:总结 -- nbr 每日 sales id sample 清洗 day

2、数据清洗:

要求将day_id一列中的数值清洗为真实的日期格式,可用字符串表示。

数据1对应日期2021-09-01,依次类推,15对应日期2021-09-15

 1 CREATE TABLE IF NOT EXISTS sales_sample (
 2   day_id STRING,
 3   sale_nbr STRING,
 4   buy_nbr STRING,
 5   cnt INT,
 6   round INT
 7 )
 8 ROW FORMAT DELIMITED
 9 FIELDS TERMINATED BY ','
10 STORED AS TEXTFILE;
11 
12 
13 CREATE  TABLE IF NOT EXISTS target_sales_sample (
14   day_id STRING,
15   sale_nbr STRING,
16   buy_nbr STRING,
17   cnt INT,
18   round INT
19 )
20 ROW FORMAT DELIMITED
21 FIELDS TERMINATED BY ','
22 STORED AS TEXTFILE;
23 
24 -- -- 将数据上传到HDFS
25 -- -- hadoop fs -put employees.csv /
26 
27 -- -- 导入数据到Hive表
28 LOAD DATA INPATH '/xiyou/sales_sample_20170310.csv' INTO TABLE target_sales_sample;
29 --
30 -- -- 验证数据导入
31 SELECT * FROM  target_sales_sample ;
32 SELECT * FROM  sales_sample ;
33 -- -- 使用Hive的UDF将day_id映射为日期格式
34 
35 insert overwrite table sales_sample
36 select
37     date_add('2023-09-00',cast(day_id as int)) as day_id,
38     sale_nbr as sale_nbr,
39     buy_nbr as buy_nbr,
40     cnt as cnt,
41     round as round
42 from target_sales_sample;

 

标签:总结,--,nbr,每日,sales,id,sample,清洗,day
From: https://www.cnblogs.com/fan-wang/p/17723668.html

相关文章

  • 每日总结
    今日收获顺利通过王老师的测试啦(~~~今晚大概,可以稍微睡的久一点)!背单词~明天预计明天要开始准备一下关于.NET的东西啦!小组的大作业可不能落下;还要准备一下程序设计大赛(来自算法菜鸟的无奈~);打算今天把那个实验报告写了;......
  • 每日总结9.22
    今天学习了将csv文件导入到Hive数据库;对数据进行清洗,并对数据进行分析处理;实现了用Dbeaver连接hive,navicat连接Mysql数据库;在将Hive数据导入到Mysql数据库中时遇到了一些问题,明天将继续解决这个问题,并实现数据的可视化。 ......
  • k8s yaml文件总结
    k8s支持yaml和JSON格式创建资源对象,json用于接口之间消息传递,适用于开发;yaml格式用于配置和管理,适用于云平台管理,yaml简洁非标记性语言1.yaml相关基础概念  yaml语法规则:  大小写敏感;缩进表示层级关系;缩进不允许使用tab键,只允许使用空格;#表示注释---为可选分隔符,当需要......
  • uniapp项目实践总结(二十)URLScheme 协议知识总结
    导语:在日常开发过程中,我们经常可以碰到很多的调起某个应用,打开唤醒某个APP,链式启动App等场景,背后就涉及到了URLScheme协议的相关知识,下面就简单介绍一下。目录简介常见URLScheme跳转方法实战演练案例展示简介URLScheme是一个可以让APP之间互相跳转的协议,每......
  • LCT的简陋总结
    不想了解基础知识的可以直接从\(LCT\)基础操作部分开始,前面不是很重要目录\(LCT\)基础知识实链剖分辅助树一些性质\(LCT\)基础操作函数定义函数实现主要参考oi-wiki\(LCT\)基础知识树上操作是算法竞赛中重要的操作由于树的特殊性,使得维护一些子树信息和路径信息变得较为困......
  • 封装总结
    封装就是把public的类变成private的类(个人理解)露出该露的,封装该封装的定义一个私有类以后可以用ALT+INSERT快捷生成get和set方法get方法主要是为了拿到私有类set是为了设置私有类的值,以及在set方法中写一些判断条件,以防止出现一些不合理的值构造器,就是一个无参的一旦有了有......
  • 2023.9.22——每日总结
    学习所花时间(包括上课):9h代码量(行):0行博客量(篇):1篇今天,上午测试,下午做任务。我了解到的知识点:1.echarts结合mysql、javaweb实现大数据的可视化;明日计划:1.完成任务;2.尽力完成测试;......
  • [一些总结]php中的弱相等和强相等
    PHP中的弱相等和强相等相关知识网络上有太多人总结了,但还是想自己动动手写点东西加深加深印象,哈哈。先看下GPT对弱相等和强相等的解释:在PHP中,弱相等(==)和强相等(===)是用于比较两个值的操作符,它们有以下区别:1.弱相等(==):弱相等用于比较两个值是否相等,不考虑值的数据类型。如......
  • Go每日一库之20:copier
    简介上一篇文章介绍了mergo库的使用,mergo是用来给结构体或map赋值的。mergo有一个明显的不足——它只能处理相同类型的结构!如果类型不同,即使字段名和类型完全相同,mergo也无能为力。今天我们要介绍的copier库就能处理不同类型之间的赋值。除此之外,copier还能:调用同名方法为字段......
  • 考试程序语句总结
    1、导csv文件到hive数据库建表便于接收数据:createtabletest1(day_idvarchar(30),sale_nbrvarchar(30),buy_nbrvarchar(30),cntvarchar(30),roundvarchar(30))rowformatserde'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar......