hive大数据测试（时间数据清洗UDF打包到hive中调用自定义函数，hive表数据导出到本机）

时间：2023-10-13 20:46:44浏览次数：44

标签：自定义 Text hive UDF org apache import 本机

1.数据清洗

pom依赖：

<properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <hadoop.version>3.3.0</hadoop.version>
    </properties>

    <dependencies>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.5.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-jdbc</artifactId>
            <version>0.13.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>0.13.1</version>
        </dependency>

        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>3.8.1</version>
            <scope>test</scope>
        </dependency>

    </dependencies>

1.1编写UDF

package hiveUDF;

import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;


import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Locale;

public class DateTransform extends UDF {

    private final SimpleDateFormat inputFormat = new SimpleDateFormat("dd/MMM/yyyy:HH:mm:ss", Locale.ENGLISH);
    private final SimpleDateFormat outputFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

    public Text evaluate(Text input){
        //过滤

        if(input == null){
            return null;
        }

        Text output = new Text();
        String inputDate = input.toString();

        try{

            Date parseDate = inputFormat.parse(inputDate);

            String outputDate = outputFormat.format(parseDate);

            output.set(outputDate);

        } catch (ParseException e) {
            e.printStackTrace();
            return null;
        }

        return output;
    }


}

1.2在test中(相同包结构)测试是否成功清洗数据

package hiveUDF;

import org.apache.hadoop.io.Text;

public class DateTransformTest {
    public static void main(String[] args) {
        System.out.println(new DateTransform().evaluate(new Text("10/Nov/2016:00:01:02 +0800")));
    }
}

测试结果是目的结果

1.3打包成jar包

方法一：直接在这里输出mvn clean package

方法二：点clean 然后package

1.4 上传到hive中

jar先上传到虚拟机中，接着在hive中输入：(node3)

add jar jar包的位置

然后输入

create temporary function 函数名字自起 as '方法所在的位置'

例如：

create temporary function datetransform as 'hiveUDF.DateTransform'

然后再在hive里面调用测试一下

datetransform("10/Nov/2016:00:01:02 +0800")

如果输出2016-11-10 00:01:02说明调用成功了

1.5执行清洗并且将清洗后的输入存入data_chage表中

create table data_chage
as
    select
           ip,
           datetransform(d_time) as d_time,
           day,traffic,type,id
from data;

2.将hive中的数据表数据导出到本机

2.1导出到Linux虚拟机本机

insert overwrite local directory '目录路径' select * from 表

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 以','作为分隔

例如：将数据库classtest04下的表top_traffic导出到 /export/data/hiveoutdata/classtest04，且用","进行分隔的语句

insert overwrite local directory '/export/data/hiveoutdata/classtest04' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from classtest04.top_traffic;

2.2导出到本地

从虚拟机上直接下载该数据表即可，然后就可以用可视化SQL打开

同步虚拟机的sql后只需要在可视化SQL中导入该数据表，虚拟机中的sql中也会导入该数据表

3.资料：

Hive中UDF编程 - 简书 (jianshu.com)

Hive中UDF练习 - 简书 (jianshu.com)

Hive日志分析之数据清洗 - 简书 (jianshu.com)

标签：自定义,Text,hive,UDF,org,apache,import,本机
From： https://www.cnblogs.com/hmy22466/p/17763011.html

iOS 17.1 Beta 3上线：iPhone 15 Pro自定义操作按钮误触问题修复了
在iPhone15Pro和iPhone15ProMax上，苹果将静音拨片重新设计为自定义操作按钮，支持一键启用各种操作。在系统中选定你要用的快捷功能后，按住此操作按钮即可启动相应的操作，比如静音模式、专注模式、相机、手电筒、语音备忘录、翻译、放大器、快捷指令以及辅助功能等等。尽管操作......
hashcat charsets文件夹下 .hcchr自定义字符集
说明通常我们使用的是英文字符，abc123这些，但是如果遇到俄文、阿拉伯等一些非ASCII码的字符集，每次手动输入不现实。所以就可以保存到.hcchr文件中一、先看看，hashcat提供內建字符集?l=abcdefghijklmnopqrstuvwxyz?u=ABCDEFGHIJKLMNOPQRSTUVWXYZ?d=0123456789?s=......
使用api调用chatGPT，python自定义接口方法
用非官网的api一般要把官网地址https://api.openai.com/改为相应网站的url。今天测试的时候找了各种教程都没什么用，最后终于成功了，代码如下：importopenaiimportjsonimportosopenai.api_key="sk-xxxxxxxxxx"#改成你的keyopenai.api_base="https://yyyyyyyyyy/v1"#改成......
直播平台搭建，自定义View实现loading动画加载
直播平台搭建，自定义View实现loading动画加载先自定义一个View，继承自LinearLayout，在Layout中，添加布局控件 /** *Createdbyxiedongon2017/3/7. */ publicclassLoading_viewextendsLinearLayout{ privateContextmContext; privateRelativeLayoutloadi......
FlashDuty Changelog 2023-09-21 | 自定义字段和开发者中心
FlashDuty：一站式告警响应平台，前往此地址免费体验！自定义字段FlashDuty已支持接入大部分常见的告警系统，我们将推送内容中的大部分信息放到了Lables进行展示。尽管如此，我们用户还是会有一些扩展或定制性的需求，比如人工标记一个故障是否为误报。因此我们提供了自定义字段功能，......
无涯教程-DBUtils - 自定义行处理器
如果数据库表中的列名和Javabean对象名不一样，那么无涯教程可以使用自定义的BasicRowProcessor对象来映射它们。请参见下面的示例。以下是Employee.java的内容。publicclassEmployee{privateintid;privateintage;privateStringfirst;privateString......
Hive-服务启动和停止命令
1、启动命令#！/bin/bashnohuphive--servicemetastore>>$HIVE_HOME/logs/metasotre.log2>&1&nohuphive--servicehiveserver2>>$HIVE_HOME/logs/hiveserver.log2>&1&2、停止命令#！/bin/bashprocess="hive"PID=$(p......
Linux系统下配置Nginx使部分URL使用多套自定义的PHP-FPM配置
Nginx修改演示：vim/usr/local/nginx/conf/vhost/example.comserver{ listen80; server_name192.168.1.180; location/{ root/Code/project/public; indexindex.phpindex.html; include/usr/local/nginx/conf/rewrite/laravel.conf;location~\.......
虚拟机如何打开hive数据库
1、启动hodoop2.、启动hive的服务:metastorecd/export/server/apache-hive-3.1.2-bin/bin./hive--servicemetastore后台启动nohup./hive--servicemetastore&3、启动hive的服务:hiveserver2服务./hive--servicehiveserver2nohup./hive--servicehivese......
hive数据清洗,导入mysql
--用于清洗的表createtabledata1(`ip`stringcomment'城市',`date1`stringcomment'日期',`day`stringcomment'天数',`traffic`doublecomment'流量',`type`stringcomment'类型：视频video或文章art......