首页 > 其他分享 >HIVE数据分析-数据清洗

HIVE数据分析-数据清洗

时间:2023-09-23 17:11:49浏览次数:46  
标签:数据分析 string nbr sales HIVE day 清洗 id

题目:2、数据清洗:
要求将day_id一列中的数值清洗为真实的日期格式,可用字符串表示。
数据1对应日期2023-09-01,依次类推,15对应日期2023-09-15

二、数据清洗
(2)创建表格存放清洗后的数据:

create table sales_y(day_id string,sale_nbr string,buy_nbr string,cnt string,round string)
row format delimited fields terminated by ',';

2、插入清洗后的数据,并查询结果

insert overwrite table sales_y select date_add('2021-09-00',cast(day_id as int)) as day_id,sale_nbr as sale_nbr,buy_nbr as buy_nbr,cnt as cnt,round as round from sales;
select * from sales_y;

标签:数据分析,string,nbr,sales,HIVE,day,清洗,id
From: https://www.cnblogs.com/yzx-sir/p/17724729.html

相关文章

  • navicat链接虚拟机上hive环境下的MySQL
    一:启动虚拟机二,finallshell上进入hive,(具体进入参照上一个博客)三,进入成功后,打开Navicat 点击左上角链接选择MySQL按照上面的步骤:1.起一个名字,能分辨就行2.这里非常重要,必须要填IP地址,IP地址不知道的同学打开虚拟机中hive的服务端(就是你finallshell上运行hive的那个主机),在......
  • Hive学习1(数据仓库及Hive基础学习)
    1.数据仓库1.1什么是数据仓库数据仓库(英语:DataWarehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不“消费”任何的数据,其结果开放给各个外部应用使用;数据仓库是为了分析数据的。......
  • 每日总结(数据清洗)
    2、数据清洗:要求将day_id一列中的数值清洗为真实的日期格式,可用字符串表示。数据1对应日期2021-09-01,依次类推,15对应日期2021-09-151CREATETABLEIFNOTEXISTSsales_sample(2day_idSTRING,3sale_nbrSTRING,4buy_nbrSTRING,5cntINT,6round......
  • datagrip链接hive
    首先在官网下载datagrip直接点击安装选择30天免费试用直接进项下一步,进去之后,新建project 起个名字完成即可: 右上角或左边有一个database点击】点击加号选择Apachehive  ......
  • HIVe的启动以及datagrip配置
    之前已经被治好所需要的HIVe环境,治理需要启动他,才可以进行下面的链接datagrip操作首先进到finallshell里面然后启动zookeeper然后再启动hadoop:start-all.sh启动完成之后看上一个博客先关闭防火墙;根据黑马教程中提到的有两种方式启动HIVe:一,先启动metastore,然后在启动hive二......
  • HIVE数据分析-导入数据库
    首先,启动hadoop以及hive出现以上进程,显示成功将改名后的文件上传到虚拟机在hive里面的defaul数据库创建表格usedefault;showtables;loaddatalocalinpath'/export/server/apache-hive-3.1.2-bin'intotablesales;将表格数据导入到表格中createtablesales(d......
  • 将hive数据库中的数据导入到mysql数据库中时需要注意到的问题
    在hive中使用jdbc将hive与mysql连接起来时一定要注意到每个数据库不同的字段个数,在打算直接复制时,不能只是修改表的名称和字段名称,还要记得修改几个?那里,个数要与字段名称保持一致!!!不然就会报错(比如我);......
  • SQL数据分析 | 经验分享淘宝用户分析!
    SQL也能做分析?当然!常见的数据清洗,预处理,数据分类,数据筛选,分类汇总,以及数据透视等操作,用SQL一样可以实现(除了可视化,需要放到Excel里呈现)。SQL不仅可以从数据库中读取数据,还能通过不同的SQL函数语句直接返回所需要的结果,从而大大提高了自己在客户端应用程序中计算的效率。但是,这个过......
  • Cannot initiate the connection to cn.archive.ubuntu.com:80 (2403:2c80:5::6). - c
     版本:ubuntu22.04 Cannotinitiatetheconnectiontocn.archive.ubuntu.com:80(2403:2c80:5::6).-connect(101:Networkisunreachable) 嗯,被墙了。找到/etc/apt/source.list替换里面的源为清华源 ubuntu|镜像站使用帮助|清华大学开源软件镜像站|Tsinghu......
  • Python - 读取CSV文件发现有重复数据,如何清洗以及保存为CSV文件,这里有完整的过程!!!!
    语言:Python功能:1、清洗CSV文件中重复数据。2、保存为CSV文件大体流程:1、首先观察CSV文件中的数据布局格式如何?2、通过csv包读取数据。并根据规则使用continue,来跳过本次循环,并将所需数据保存到列表A中,当列表A中的数据变成len(列表A)==2时,将此数据保存到列......