首页 > 其他分享 >Hive学习4(ETL)

Hive学习4(ETL)

时间:2023-09-26 21:55:19浏览次数:30  
标签:sender -- db Hive 学习 msg table ETL

etl数据清洗:案例一  需求1:对字段为空的不合法数据进行过滤 Where过滤 需求2:通过时间字段构建天和小时字段 Substr函数 需求3:从GPS的经纬度中提取经度和维度 Split函数 需求4:将ETL以后的结果保存到一张新的Hive表中 Create table …… as select ……

--如果表已存在就删除
drop table if exists db_msg.tb_msg_etl;
--将Select语句的结果保存到新表中
create table db_msg.tb_msg_etl as
select
*,
substr(msg_time,0,10) as dayinfo, substr(msg_time,12,2) as hourinfo, --获取天和小时
split(sender_gps,",")[0] as sender_lng, split(sender_gps,",")[1] as sender_lat --提取经度纬度
from db_msg.tb_msg_source
--过滤字段为空的数据
where length(sender_gps) > 0

 

标签:sender,--,db,Hive,学习,msg,table,ETL
From: https://www.cnblogs.com/hmy22466/p/17723966.html

相关文章

  • 动态规划——状压DP 学习笔记
    动态规划——状压DP学习笔记引入前置知识:位运算动态规划的过程是随着阶段的增长,在每个状态维度上不断扩展的。在任意时刻,已经求出最优解的状态与尚未求出最优解的状态在各维度上的分界点组成了DP扩展的“轮廓”。对于某些问题,我们需要在动态规划的“状态”中记录一个集合......
  • Linux的双链表复习—Apple的学习笔记
    一,前言   今天想把linux的双链表base代码拿来单片机用,于是看了下,结果有点混乱了。那么就画了个链表变化图,且做了实验进行巩固。二,分析链表头插方法主要是root然后添加t1,然后添加t2。那么链表的变化是RootRoot->t1Root->t2->t1如下图,R代表root头节点,1代表t1节点,2代表t2节点。......
  • Hive数据仓库的学习——DML学习
    1、load加载load语法:2、Hive3.X新特性能够使用load将文件数据存储到分区中,将分区默认作为表格数据的最后一列;3、insert+select向表插入数据这个语法就是在上次测试的时候遇到过的问题嘞!insert+values这个语法执行效率就很慢,而换用insert+select之后效率就提升很多啦!4、......
  • 异质数据环境下的联邦学习
        近年来,大量数据的产生和边缘设备算力的提高,以及对数据隐私的要求使得以联邦学习为代表的分布式机器学习得到研究关注。传统的联邦学习优化方法如FEDAVG由于其简单实现且具有较低的通信代价得到了广泛的应用,但是其在异质数据环境下很难取得优秀的效果。联邦学习中各客户......
  • linux的第一步,学习指令
    mkdir创建一个文件夹.mkdir-p一次性创建多个文件夹,在自己的当前所在目录,用指令qwd查看.qwd自己的当前所在目录.qwd-p查看自己的绝对路径.ls-a查看隐藏目录和文件.在自己的所在的目录下.ll(ls-a)查看目录和文件属性.cd切换目录.rmdir删除自己所在文件夹下的文......
  • SQL的学习
    数据的操作数据的存储,表格中添加数据insetinto表民(字段)values(值)数据表的数据约束非空约束 notnull解释:当字段添加非空约束的时候,当前字段就不允许插入null值,如果插入null值,就会报错默认default解释:如何没有给此字段添加数据,默认自动添加默认值检查 check解释:检测你......
  • 2023-2024-1 20211319蓝宇 《信息安全专业导论》第一周学习总结
    作业信息|这个作业属于哪个课程|2020-2021-1信息安全专业导论(https://edu.cnblogs.com/campus/besti/2020-2021-1fois))||这个作业要求在哪里|[2020-2021-1信息安全专业导论第一周作业](https://edu.cnblogs.com/campus/besti/2020-2021-1fois/homework/11249))||这个作业的......
  • Hive数据仓库的学习——DDL之内部表、外部表、分区表、分桶表
    1、内部表和外部表没有指定建表的类型的话,默认为内部表(InternalTable或者是ManagedTable)可以通过这行代码查看表的类型:describeformatted表名;内部表和外部表的区别以及适合使用的范围:2、分区表--避免全表扫描,提高查询效率需要注意的是,在创建分区表时,分区字段不能再作......
  • 《信息安全系统设计与实现》第四周学习笔记
    第七章文件操作级别硬件级别fdiskmkfsfsck碎片整理操作系统内核中的文件系统函数系统调用I/O库函数用户命令sh脚本文件I/O操作低级别文件操作分区Command(mforhelp):m---输出帮助信息Commandactionatoggleabootableflag---设置启动分区b......
  • ETL中的增量抽取策略
    在当今数字化时代,数据的增量更新和同步对于企业的成功至关重要。ETL(Extract,Transform,Load)框架作为数据处理的核心,其中的增量抽取策略在数据更新和同步方面扮演着关键的角色。本文将以ETLCloud为例,深入探讨增量抽取策略的重要性以及该平台如何实现高效的增量更新和同步。增量抽取是......