hive可以任意定义一个函数,然后该函数放到hive的classpath下,在进入hive中,使用该命令操作
场景:设中国移动的用户在商城上下单,下单记录的主要字段包括
订单号 手机号码 商品编码 商品数量 渠道
10000 18810637891 bm0001 1 0001
10001 18710637891 bm0002 2 0002
10002 18710637891 bm0001 1 0001
10003 18610637891 bm0002 2 0003
10004 18610637891 bm0002 5 0001
10005 18610637891 bm0004 2 0005
已知:如何根据手机号得知该用户对应的省份。假设规则如下(即:手机号前三位和省份的对应的关系)
188 北京(bj)
187 上海(sh)
186 河北(hb)
对上面的记录在手机号的后面加上省份字段,然后把其余字段输出并上传hdfs上
解决方案:
1、下单记录日志存放在日志文件jforder.log中
[hadoop@cloud01 sbin]$ hadoop fs -mkdir /external
[hadoop@cloud01 sbin]$ hadoop fs -mkdir /external/hive
hive> create external table jf_order (orderNo string ,mobileNo string,wareCode string,amount int ,channel string)
> row format delimited
> fields terminated by '\t'
> location '/external/hive';
[hadoop@cloud01 ~]$ more jforder.log
10000 18810637891 bm0001 1 0001
10001 18710637891 bm0002 2 0002
10002 18710637891 bm0001 1 0001
10003 18610637891 bm0002 2 0003
10004 18610637891 bm0002 5 0001
10005 18610637891 bm0004 2 0005
[hadoop@cloud01 ~]$ hadoop fs -put jforder.log /external/hive
2、编写hive的函数areaFunction,作用根据手机号获取对应的用户省份
3、启动eclipse,编写udf函数
/**
* @function: 定义省份转换函数,加载hive的 classpath下,可以直接使用
* @author shenfl
* @version:1.0
* @date: 2015 -5- 31
*
*/
public class AreaFunction extends
/*定义静态变量*/
public static Map<String, String> map = new HashMap<String,String
/*可扩展数据数据库获取*/
static{
map .put("188" ,"北京"
map .put("187" , "上海"
map .put("186" ,"河北"
}
public String evaluate(String mobileNumber
return mobileNumber + "\t" + map .get(mobileNumber
}
public static void main(String [] args
area = new
String mobileNumber = "18810635789"
String rs = area.evaluate( mobileNumber
out .println(rs
}
}
4、上传编写的函数,把编写好的函数放到hive的classpath下
hive>add jar /home/hadoop/hiveudf.jar;
hive>create temporary function area2 as 'com.hive.AreaFunction';
5、验证
hive> select orderNo ,area2(mobileno),wareCode,amount ,channel from jf_order;
6、强化后的结果存储到hdfs上
hive> insert overwrite directory '/hiveout' select orderNo ,area2(mobileno),wareCode,amount ,channel from jf_order;